OpenAI、「高度なボイスモード」のα版提供開始、AIとの自然な音声会話を実現

米OpenAIは7月30日（現地間）、「高度なボイスモード」（Advanced Voice Mode）のアルファ版提供を開始した。生成AIとの音声による対話で、応答性の高い自然な会話をリアルタイムで実現する。同社は今年5月にマルチモーダルAIモデル「GPT-4o」を発表した際に「高度なボイスモード」を公開し、6月に提供を開始する予定だったが、さらなる改善が必要になったとして展開が1カ月延期されていた。

マルチモーダルAIモデルとして構築されたGPT-4oは、テキスト、音声、画像、およびそれらの組み合わせを入力として受け入れ、出力として生成する。GPT-4から特に音声反応や画像認識が大きく向上しており、音声反応の場合、GPT-4の音声モードの音声入力からの待ち時間が平均5.4秒であるのに対し、GPT-4oは最短232ミリ秒、平均320ミリ秒と非常に高速である。GPT-4o発表時に、「高度なボイスモード」による人同士のようなスムーズな会話のライブデモが話題を呼んだ。

「高度なボイスモード」のアルファ版は、一部の「ChatGPT Plus」ユーザーから提供を開始する。リリース範囲を段階的に広げていくロールアウト方式で展開し、今年秋に全てのChatGPT Plusユーザーが利用できるようにする計画である。アルファ版を利用できるようになったユーザーにはメールとモバイルアプリのメッセージで通知する。

「高度なボイスモード」に関して、GPT-4o発表時のデモで用いられた「Sky」という生成音声が、映画「her/世界でひとつの彼女」でバーチャル・アシスタントを演じたスカーレット・ヨハンソンの声に酷似していることが物議を醸した。

OpenAIは「高度なボイスモード」からSkyを削除し、100人以上の外部レッドチームと45カ国語でテストを重ねてきた。AIによる高度な音声生成は特定の人の声をそっくりに再現できるが、他人の声になりすませないように、「高度なボイスモード」では4つのプリセット音声のみで会話するように制限し、それらの音声と異なる出力をブロックするシステムを構築した。また、音楽やその他の著作権で保護された音声を生成するリクエストを識別してブロックするフィルター機能も備えている。

OpenAIは、GPT-4oの能力、制限、安全性評価などに関する詳細なレポートを8月初旬に公開する予定である。