「Advanced Voice Mode」は、ChatGPTの高度な音声対話機能です。マルチモーダルモデル「GPT-4o」がベースとなっており、ユーザーはChatGPTとリアルタイムで自然な音声対話を行うことができます。状況に合わせて応答の速度や声のトーンを変えることができるため、感情表現を伴う応答が可能です。
Advanced Voice Modeには、ChatGPTのモバイルアプリ、デスクトップアプリ、およびWeb版(chatgpt.com)が用意されています。公式サイトのFAQによると、ChatGPT Plus、Pro、Teamプランなどの全ての有料プランのユーザーに提供されています(2025/1/30時点)。無料ユーザーは「月間プレビュー」の扱いで利用可能です。
今回は、このAdvanced Voice Modeについて、進化の経緯を追いながら紹介します。
Advanced Voice Modeの特徴
Advanced Voice Modeでは、AIとのやり取りが人間同士のやり取りにかなり近づいてきている感があります。 その音声と映像の特徴について見てみましょう。
◆特徴A. 高速な応答速度:以前から提供されていた標準Voice Modeと比べて、応答速度は非常に早くなっています。これにより、人間との会話と遜色ないテンポの良い対話が実現されています。
◆特徴B. 感情表現の豊かさ:AIがユーザーの話し方や速度などの非言語的な手がかりを理解した上で回答を生成し、さらに応答の速度や音声のトーンを調整するため、より人間らしい感情表現を伴う発話が可能です。
◆特徴C. 発言中の割り込み:ChatGPTの発言中でもユーザーが割り込んで話すことができ、標準Voice Modeでは難しかったインタラクティブな会話が可能となっています。
◆特徴D. 映像の認識:音声だけではなく、カメラの映像も認識します。これにより、言葉では表現しにくい、目に見えているものについても、ChatGPTとのやりとりに活用することができます。
Voice Modeの進化の経緯
2024年5月13日に行われたGPT-4oの発表のなかで、Voice Modeに関するデモ動画が公開されました。一方で、ユーザーが実際に利用可能となるのは発表から少し遅れてのタイミングだったり、何度か追加発表があったりしたため、「結局、何がいつ追加され、使えるようになったのか」がわかりにくかったことは否めません。
本節では、これらの流れを時系列に沿って振り返ってみましょう。