GPT-4 Turbo with VisionがAzure OpenAI Serviceで利用可能に

Microsoftは12月14日（米国時間）、AI - Azure AI Services Blog「GPT-4 Turbo with Vision is now available on Azure OpenAI Service!」において、OpenAIによるAIモデル「GPT-4 Turbo with Vision」のプレビュー版がAzure OpenAI Serviceで利用可能になったことをアナウンスした。GPT-4 Turbo with Visionは、GPT-4の改良版であるGPT-4 Turboに対して、視覚情報の入力や分析を可能にしたマルチモーダルAIモデル。GPT-4 Turbo with Visionのサポートに伴って、Azure OpenAI Serviceには視覚情報関連の新しい拡張機能も追加された。

GPT-4 Turbo with Visionの特徴

OpenAIは2023年11月にLLM（大規模言語モデル）ベースのAIモデル「GPT-4」の改良版として「GPT-4 Turbo」および「GPT-4 Turbo with Vision」を発表した。GPT-4 Turboでは、入出力の最大トークンの拡張や、プロンプトに対する追従のしやすさの向上といったアップデートが行われている。

GPT-4 Turbo with VisionはGPT-4 Turboに対して視覚情報（画像）の入力を可能にしたマルチモーダルモデルである。Microsoftでは、Ignite 2023においてGPT-4 Turbo with VisionをAzure OpenAI Serviceで利用可能にすると発表していた。

Azure OpenAI Serviceで行われた機能拡張

GPT-4 Turbo with Visionのサポート開始に伴って、Azure OpenAI Serviceには次のような拡張機能も追加された。

光学式文字認識（OCR）: 画像からテキストを抽出する
オブジェクトグラウンディング: 画像内の主要なオブジェクトを識別し、強調表示する
ビデオプロンプト: ユーザのプロンプトに基づいてビデオから関連性の高いフレームを抽出し、質問に回答する

上記に加えて、Azure AI SearchおよびAzure AI VisionとGPT-4 Turbo with Visionの組み合わせにより、画像にテキストデータを追加できるようになり、チャットのエクスペリエンスが向上しているという。

GPT-4 Turbo with Visionを使用したオブジェクトグラウンディングの例　出典:AI - Azure AI Services Blog

Azure OpenAI ServiceのGPT-4 Turbo with Visionは、本稿執筆時点ではAustralia East（オーストラリア東部）、Sweden Central（スウェーデン中部）、Switzerland North（スイス北部）、West US（米国西部）の4つのリージョンで利用できる。