会話型車載AIのイノベーション - システムのサイクルの加速と課題

会話型の車載AIの定義は、長い時間をかけて着実に少しずつ進歩してきました。現在、大規模言語モデル(LLM)や小規模言語モデル(SLM)の発達により、進歩のペースは加速しています。それとともに、人々のイノベーションに対する認識も変化してきました。

真の進歩とは、もはや技術的な限界を押し上げることではありません。むしろ、こうした画期的な技術を、ドライバーや同乗者が乗車した瞬間から求める優れたユーザーエクスペリエンスに転換することなのです。これはすなわち、会話型車載AIがどのように量産車に搭載されるかだけでなく、「どのように構築され、統合され、長期にわたり更新されていくのか」にも関わってきます。

イノベーションは実際の利用状況で測られる

車載AIの進歩は、ソフトウェアが量産車に搭載され、実際に路上に出たときに何が起きるかによって測定されます。つまり、ドライバーが新世代のテクノロジーを利用しているかどうか、そして日々の運転中に積極的に活用しているかどうかということが問題になるのです。真の検証は、一貫したエンドユーザーエンゲージメントを基に行われます。音声システムがより会話型になったことで、利用は徐々に拡大しました。これは、音声インタラクションがより自然で実用的な車載インタフェースになっていることの現れです。

しかしJ.D.Powerの調査によると、車のオーナーの60％以上が、自分の車に搭載された先進機能を利用していません。そのため、エンドユーザーに利便性や円滑なハンズフリー体験を提供するだけでなく、あらゆる車載AI機能へのアクセスを支援する音声AIを設計することが不可欠になってきました。たとえばCerence AI(セレンスAI)の「オーナーシップ・コンパニオン・エージェント」は、エンドユーザーが先進的なAI機能を発見できるよう促す目的で作られています。

イノベーションサイクルの加速により製品設計が変化

同じ音声システムを何年も使っていると、より頻繁に更新を行わなければなりません。無線での提供により、OEMによる反復作業や修正は迅速化し、エンドユーザーに一貫したイノベーションを届けることが可能になりますが、それは同時に、新しいプレッシャーを生み出します。どんなに厳しいスケジュールであっても、車載ソフトウェアには広範な試験と検証が必要になるからです。

そのため、速やかな新機能の導入と、量産車に期待される信頼性を保つ、その2つの間で常にバランスをとることになります。セレンスAIは、大量の実地データを活用し、主要なユースケースを試験し、検証し、最適化しています。

AIが生産を加速させると、集中とモジュール化が不可欠になる

AIツールは現代の生産工程に欠かせないものであり、ソリューションの選択に関する研究や調査を大幅に加速させます。これまでは大量の手作業を必要としたタスクを、ずっと効率的に完了させることができるようになりました。

同時に、このように新しいモデルや手法が急速に浮上したことで、優先順位をつけることが以前にも増して重要になりました。またOEMにとっては、設計の柔軟性が不可欠になりました。

モデルやハードウェアの選択肢が増えたため、凝り固まったシングルベンダースタックを回避しない限り、長期的な成功は望めません。セレンスAIは1つの技術に依存しないアプローチをとり、自動車メーカーが自身のニーズに合ったLLM、SLM、オペレーティングシステム、チップセットを適切に組み合わせて選べるようにするとともに、要求事項の変化に合わせて調整できるようにしています。

セレンスAIは、多様なハードウェア環境への統合や異種のAIモデルのサポートが可能なモジュール型システムを設計することにより、OEMが将来のイノベーションを制限するような決断に縛られることなく迅速に行動できるようにしているのです。

エンドツーエンドの音声システムへの移行

会話型AIにおいて進行している最も重要な変化の1つがアーキテクチャです。従来の「エンドツーエンド」の車載音声システムは、オーディオを組み込み、発話を認識し、1つのインテント(意図)を選択する、あらかじめ定義されたアクションを実行するリニアパイプラインとして設計されていました。こういったシステムは、完全にモジュール化されたスタックに比べて統合は容易ですが、多くは広範な目的ではなく単独のリクエストに最適化されたコマンド・アンド・コントロール型インタフェースを持っています。

現在、エンドツーエンドシステムの定義は変わりました。焦点は、シングルパイプラインの最適化ではなく、システムそのものに移っています。つまり、コンテキスト(文脈)がどのように保たれるか、決定が複数ドメインでどのようになされるか、インテリジェンスが時間とともにどのように調整されより自然で連続的なインタラクションをサポートできるかということが重視されるようになったのです。

エンドツーエンドシステムの定義が刷新されたことで、AIエージェントは中心的な役割を果たすようになりました。エージェントは、個々のコマンドに単独で応えるだけでなく、コンテキスト(文脈)、インテント(意図)、ヒストリー(履歴)をすべて論理的に判断しつつ、マルチステップタスクを処理することができます。これにより音声エクスペリエンスは、単純なリクエスト・レスポンスパターンから、より目的志向のインタラクションへと進化できるようになりました。

オーケストレーションは、これを実現するための結合組織です。複数のエージェント、モデル、データソースを見えないところで調整し、切断された機能の集合体ではなく一体化したシステムとして機能します。同時に、パフォーマンス、信頼性、コスト効率および柔軟性のバランスをとりつつ、エッジおよびクラウド全体にインテリジェンスを分散させることを可能にします。

OEMはこの方法により、コントロールを保ちつつ複雑さを軽減することができます。個々の機能を有線で接続するのではなく、新しいエージェントの導入、モデルの更新、システムレベルでのビヘイビアの調整などにより時間をかけて車載AIを進化させることができるのです。結果的にエンドユーザーは、いちいち命令するのではなく、車に乗り込んだとたんにコンテキストを理解し、ニーズを予測し、タスクを自然にサポートしてくれる賢いパートナーが隣にいてくれると感じるような音声体験を得ることができます。