AWSは、リアルタイムで自然な音声会話を合成できる会話型AI基盤の新モデル「Amazon Nova 2 Sonic」のリリースを発表した。ネイティブな表現力、自然な間、ユーザーからの割り込みへのシームレスな対応など、より自然なAIとの会話を実現すると共に、追加された複数の新機能により高度な会話型AIアプリケーションの開発が可能になるという。
音声理解の向上とターンテイキング制御と高度なマルチエージェント機能により自然な会話を実現する「Amazon Nova 2 Sonic」
AWSは長年に亘りAlexaなど音声技術の開発を進め、2025年4月には音声を直接理解し会話を生成するモデルを投入した「Amazon Nova Sonic」をリリースするなど成果を積み上げているが、今回、その基盤をもとにアクセス性、インテリジェンス性、エージェント機能を向上させた新モデル「Amazon Nova 2 Sonic」を年次イベント「re:Invent 2025」で発表した。
-

公式Webサイト動画より、Amazon Nova 2 Sonicのデモ(公式Webサイト)
「Amazon Nova 2 Sonic」は、バージョンアップにあたり、リアルタイム音声対話機能を強化しており、精度が落ちやすい英数字入力や短い発話、8KHzの電話音声入力などで改善を実現し、主要なベンチマーク機関から高い評価を得ている。
会話の間を調整し、自然な対話リズムを再現する「ターンテイキング」の設定機能、音声とテキストを同一セッション内でシームレスに切り替えることができる「クロスモーダルインタラクション」機能などに加えて、会話を続けながら裏で別の処理を進められる、非同期タスク処理が可能なマルチエージェント機能では、バックグラウンドで検索や入力、計算など様々処理を並行的に処理できる。一時停止することなく、ユーザーの応答に継続するため、その結果を会話に生かすなど、音声を使ったAIにおける様々な用途での活用が期待できる。
言語機能では、同じ会話内で言語を切り替えることができるポリグロット音声を導入、言語サポートも拡張され、従来の英語、フランス語、イタリア語、ドイツ語、スペイン語に加えてポルトガル語とヒンディー語が追加された。現時点では日本語は未対応となる。
利用は、米国東部(バージニア北部)、米国西部(オレゴン)、アジアパシフィック(東京)、ヨーロッパ(ストックホルム)のAWSリージョンで、「Amazon Bedrock」を通じて利用可能となっている。詳細は、Amazon Nova ユーザーガイドの Nova Sonic セクションで確認できる。
