米OpenAIは12月12日(現地時間)、「ChatGPT」の「高度な音声」モードにビジュアル機能とサンタ・モードを追加することを発表した。

ビジュアル機能は、ChatGPTアプリ(iOS、Android)で「高度な音声」モード使用時に、ユーザーがカメラで撮影しているビデオストリーミングからの情報も、ChatGPTとの対話に反映できる機能である。AIとの対話に言葉に加えて視覚的な情報が加わることで、AIの文脈の理解が向上し、視覚情報に基づいた情報提供(花の種類を特定など)やアシスタント(ユーザーの雰囲気に合ったファッションの提案など)、高度なデータ分析、スムーズなコミュニケーションなどが可能になる。

今年5月にOpenAIが「GPT-4o」を発表した際に、「高度な音声」モードで実現する機能の1つとしてビジュアル機能も紹介された。その際、‌ 「高度な音声」モードのスムーズな会話力とともに、ビジュアル機能の実用性と視覚認識の効果が注目を集めたが、同機能の提供は遅れていた。ユーザー待望の機能追加である。

12 Days of OpenAI」でのデモを紹介すると、ペーパードリップ用のケトルやドリッパーなどをテーブルの上に並べ、それらにカメラを向けてChatGPTにドリップコーヒーの淹れ方を質問した。ChatGPTはユーザーが手順に従っているのを確認しながら、ステップバイステップで淹れ方を説明した。

ビジュアル機能は画面共有もサポートする。「高度な音声」モードで三点ボタンをタップして画面共有を選択すると、スマートフォンの画面に表示されていることについてChatGPTと対話できる。

  • 高度な音声モードでがChatGPTと画面共有

    ケビン・ウェイル氏から送られてきた「モールのサンタになるために、他に必要なものある?」という写真付きメッセージを見て、ChatGPTは「見た目は華やかで良いので、あとは『Ho Ho Ho』をもっと練習したらすぐにモールデビューできるよ!」という返信を提案

ビジュアル機能は、ChatGPT EnterpriseとEduのユーザー以外に、約10日をかけてロールアウトする。

サンタ・モードは、クリスマス風にアレンジされたサンタ音声である。ChatGPTの設定の音声選択で「Santa」を選んで「高度な音声」モードを開くと、オーブがスノードームに変化し、「Ho Ho Ho」というサンタの掛け声で音声対話が始まる。サンタ・モードを使用すると、特典として初回時に「高度な音声」の制限がリセットされる。