Microsoftは12月14日(米国時間)、AI - Azure AI Services Blog「GPT-4 Turbo with Vision is now available on Azure OpenAI Service!」において、OpenAIによるAIモデル「GPT-4 Turbo with Vision」のプレビュー版がAzure OpenAI Serviceで利用可能になったことをアナウンスした。GPT-4 Turbo with Visionは、GPT-4の改良版であるGPT-4 Turboに対して、視覚情報の入力や分析を可能にしたマルチモーダルAIモデル。GPT-4 Turbo with Visionのサポートに伴って、Azure OpenAI Serviceには視覚情報関連の新しい拡張機能も追加された。

GPT-4 Turbo with Visionの特徴

OpenAIは2023年11月にLLM(大規模言語モデル)ベースのAIモデル「GPT-4」の改良版として「GPT-4 Turbo」および「GPT-4 Turbo with Vision」を発表した。GPT-4 Turboでは、入出力の最大トークンの拡張や、プロンプトに対する追従のしやすさの向上といったアップデートが行われている。

GPT-4 Turbo with VisionはGPT-4 Turboに対して視覚情報(画像)の入力を可能にしたマルチモーダルモデルである。Microsoftでは、Ignite 2023においてGPT-4 Turbo with VisionをAzure OpenAI Serviceで利用可能にすると発表していた。

Azure OpenAI Serviceで行われた機能拡張

GPT-4 Turbo with Visionのサポート開始に伴って、Azure OpenAI Serviceには次のような拡張機能も追加された。

  • 光学式文字認識 (OCR): 画像からテキストを抽出する
  • オブジェクトグラウンディング: 画像内の主要なオブジェクトを識別し、強調表示する
  • ビデオ プロンプト: ユーザのプロンプトに基づいてビデオから関連性の高いフレームを抽出し、質問に回答する

上記に加えて、Azure AI SearchおよびAzure AI VisionとGPT-4 Turbo with Visionの組み合わせにより、画像にテキスト データを追加できるようになり、チャットのエクスペリエンスが向上しているという。

  • GPT-4 Turbo with Visionを使用したオブジェクトグラウンディングの例 出典:AI - Azure AI Services Blog

    GPT-4 Turbo with Visionを使用したオブジェクトグラウンディングの例 出典:AI - Azure AI Services Blog

Azure OpenAI ServiceのGPT-4 Turbo with Visionは、本稿執筆時点ではAustralia East(オーストラリア東部)、Sweden Central(スウェーデン中部)、Switzerland North(スイス北部)、West US(米国西部)の4つのリージョンで利用できる。