「Advanced Voice Mode」は、ChatGPTの高度な音声対話機能です。マルチモーダルモデル「GPT-4o」がベースとなっており、ユーザーはChatGPTとリアルタイムで自然な音声対話を行うことができます。状況に合わせて応答の速度や声のトーンを変えることができるため、感情表現を伴う応答が可能です。
Advanced Voice Modeには、ChatGPTのモバイルアプリ、デスクトップアプリ、およびWeb版(chatgpt.com)が用意されています。公式サイトのFAQによると、ChatGPT Plus、Pro、Teamプランなどの全ての有料プランのユーザーに提供されています(2025/1/30時点)。無料ユーザーは「月間プレビュー」の扱いで利用可能です。
今回は、このAdvanced Voice Modeについて、進化の経緯を追いながら紹介します。
Advanced Voice Modeの特徴
Advanced Voice Modeでは、AIとのやり取りが人間同士のやり取りにかなり近づいてきている感があります。 その音声と映像の特徴について見てみましょう。
◆特徴A. 高速な応答速度:以前から提供されていた標準Voice Modeと比べて、応答速度は非常に早くなっています。これにより、人間との会話と遜色ないテンポの良い対話が実現されています。
◆特徴B. 感情表現の豊かさ:AIがユーザーの話し方や速度などの非言語的な手がかりを理解した上で回答を生成し、さらに応答の速度や音声のトーンを調整するため、より人間らしい感情表現を伴う発話が可能です。
◆特徴C. 発言中の割り込み:ChatGPTの発言中でもユーザーが割り込んで話すことができ、標準Voice Modeでは難しかったインタラクティブな会話が可能となっています。
◆特徴D. 映像の認識:音声だけではなく、カメラの映像も認識します。これにより、言葉では表現しにくい、目に見えているものについても、ChatGPTとのやりとりに活用することができます。
Voice Modeの進化の経緯
2024年5月13日に行われたGPT-4oの発表のなかで、Voice Modeに関するデモ動画が公開されました。一方で、ユーザーが実際に利用可能となるのは発表から少し遅れてのタイミングだったり、何度か追加発表があったりしたため、「結局、何がいつ追加され、使えるようになったのか」がわかりにくかったことは否めません。
本節では、これらの流れを時系列に沿って振り返ってみましょう。
1. 発表時点の標準Voice Modeの機能
2024年5月13日に発表された標準Voice Modeは、その時点で既に高い音声認識精度を誇っており、世の中に衝撃を与えました。チャットの代わりに音声でさまざまな質問を投げたり、英会話の練習に使ったりといったことも可能だったのです。
これだけでも十分すごいのですが、発表時点のデモ動画にあったような特徴(前節で挙げたA~D)を実現した機能はユーザーに提供されていなかったため、できないこともありました。
- A. 一定時間待たされることもあり、リアルタイムの会話というほどではなかった
- B. 状況に応じて声のトーンやスピードを変えることはできなかった
- C. ChatGPTが発言中に遮るためにはボタンタップが必要だった
- D. カメラで映像を映しながらの会話はできなかった
なお、標準Voice Modeについては、本連載第11回「GPT-4oでマルチモーダルを体感してみよう」の「2. 音声チャットの結果をテキストに」の節で紹介しているので、気になる方はご参照ください。
2. Advanced Voice Modeの登場
2024年9月25日、リアルタイム音声機能のAdvanced Voice Modeが登場しました。これにより、音声面の特徴A~Cが実装され、より実際の会話に近いものになりました。
- A. 応答速度が早くなり、リアルタイムでの会話が可能になった
- B. 状況に応じて声のトーンやスピードを変えることができるようになった
- C. ChatGPTの発言中に、ユーザーが発言することで会話を遮ることができるようになった
一方で、この当時は、カメラで映像を映しながらの会話(特徴D)はできませんでした。このため、映像を見せれば一目瞭然の状況であっても、言語による説明が必要でした。
3. 「12 Days of OpenAI」におけるAdvanced Voice Modeの進化
OpenAIが2024年12月5日~20日に実施したイベント「12 Days of OpenAI」では、期間中の平日に毎日、さまざまな機能が発表されました。6日目にあたるDay6(12月13日)に発表されたのが、Advanced Voice Modeへのビデオ通話とスクリーンシェア機能の統合です。
これにより、ユーザーはリアルタイムで映像を共有しながらChatGPTと対話でき、より多彩で直感的なコミュニケーションが可能となりました。情景描写など言葉による表現が難しい場面において、映像を用いることでより豊富な情報量の下、ChatGPTとの会話が楽しめるようになったのです。
デモ動画の中では、トナカイのツノを被っている人や、サンタの帽子を被った人は誰?と質問し、正しく回答できています。
なお、イベント中はホリデーシーズンに合わせて、AIがサンタクロースの声で応答する「サンタモード」が追加され、ユーザーは特別な音声体験を楽しむことができました。
* * *
Advanced Voice Modeは、従来の音声対話システムに革新をもたらす機能が多数搭載され、単なるテキスト対話や従来型の音声機能を超えた新たなコミュニケーションの形となっています。
ビジネスシーンや学習、エンターテインメントなど、さまざまな場面での活用が期待でき、ユーザーにとって利便性や体験価値を大幅に向上させます。
読者の皆さまの環境に応じて使い倒していくことで、また新たな活用方法が見出せるかもしれません。