東京大学×NTT×NEC、6G・IOWN基盤に3者技術を統合しリアルタイムAR支援の実証に成功

東京大学大学院工学系研究科（以下、東京大学）、NTT、日本電気（以下、NEC）は2月26日、安心・安全な社会を支えるAIエージェント普及の実現に向け、6G / IOWN（Innovative Optical and Wireless Network）基盤に3者の技術を統合したことを発表した。

今回の取り組みでは、ストリーミングセマンティック通信技術、生成AI向けメディア制御技術、INC（In-Network Computing）アーキテクチャ技術を統合し、AIエージェントに必要な大容量データ通信と計算処理の最適化を実現した。3者は実証を通じて、提案技術の有効性を確認したとのことだ。

6G / IOWN基盤技術統合の全体像

3者連携の背景と意義

情報通信は世界中のどこでも誰とでも利用できる共通基盤であり、その発展には国際連携や国際標準化が不可欠となるため、グローバルな価値を起点に検討する必要がある。近年ではグローバルな価値として、安心・安全の重要性が高まっている。安心・安全な社会の実現には、災害や事故、サイバー攻撃など、刻々と変化する状況を迅速に把握し、適切な対応が求められる。

しかし、こうした対応を人手や事前に定めたルールだけで行うことには限界があり、AIの活用にも期待が高まる。人を支援するAIエージェントの利用により、自律的かつリアルタイムに状況を認識できるようになるため、被害の未然防止や影響の最小化に貢献する。

一方で、AIエージェントを高度に機能させるためには、膨大なデータを低遅延かつ高い信頼性で処理・伝送できる次世代ICTインフラも必要だ。こうした背景から、6GやIOWNに強みを有する東京大学、NTT、NECが、東京大学の「社会連携講座」制度のもとで結集し、安心・安全を支えるAIエージェントの実現に向けた研究開発に取り組む。

研究背景

近年のAI活用は、人間からのプロンプト入力を起点に動作する形態が中心となる。一方、今後の社会では、人間の明示的な指示に依存せず、センサーなど非人間からの入力を起点として自律的に動作するAIエージェントの普及が進むと考えられる。

そのような進化によって、周囲環境のデータを常時収集・監視し、異常の兆候を検知した際にリアルタイムで対応する、安心・安全を支えるAIエージェントの実現が期待される。

常時稼働型のAIエージェントの利用が拡大すると、マルチモーダルデータの量が爆発的に増加することから、無線区間の帯域不足、センサーデータの常時AI処理による計算負荷の増大、AIの大規模化に伴う計算負荷と消費電力の増大などにつながる懸念もある。

技術のポイント

3者は今回、これらの課題を解決するため、ストリーミングセマンティック通信技術（東京大学）、生成AI向けメディア制御技術（NEC）、INCアーキテクチャ技術（NTT）によるアプローチを提案する。

ストリーミングセマンティック通信技術は、時間的意味連続性を通信制御に組み込むセマンティック通信の応用技術により、周囲の状況の変化を時間方向に追跡し利用することで、単一フレームでは検出困難な周囲の状況も時間的文脈に基づいて検出可能とする技術。さらに、重要な情報を低データ量で送信することで無線区間における通信リソースを削減する。

生成AI向けメディア制御技術は、AIエージェントの前段にデータ識別器を配置し、重要なセンサーデータのみを選択的にAIエージェントへ入力することで、推論に必要な計算リソースを削減する技術。データ識別器はAIエージェントの推論結果を学習し、重要なセンサーデータを判別する。

INCアーキテクチャ技術は、一つの巨大なAIにすべてを任せるのではなく、ネットワークに分散する小型の専門AIや外部の情報源を組み合わせて、AI処理の高効率・高信頼化を実現する技術。

技術課題と提案アプローチ

3者による実証の概要

実証は、AIエージェント利用時におけるエンド・ツー・エンド遅延の特性を把握した上で、提案技術による通信・計算処理の効率化が遅延低減に与える効果を検証する目的で実施した。

実証では、危険シーンを含む動画データセット（60秒、1800フレーム）を用い、センサーから入力される映像をAIエージェントが処理する構成について、段階的な評価を行った。対象とするユースケースは、ARグラスを装着したユーザーの周辺環境をAIエージェントが継続的にモニタリングし、環境の変化やコンテキストを把握した上で潜在的なリスク兆候を予測・判断する、リアルタイム性が求められるシナリオだ。

まず、事前評価として、センサーから入力される全フレームを逐次的にAI処理する構成において、遅延特性を評価。その結果、フレームごとに処理待ち時間が累積し、エンド・ツー・エンド遅延が時間の経過とともに増大する傾向が確認された。

ユーザーの目の前で危険イベントが発生してから判断結果や指示が提示されるまでに要する時間が増大することを意味しており、リアルタイムなAR支援のユースケースにおける課題であることが明らかになった。

次に、事前評価の結果を踏まえ、提案技術を適用した構成を評価した。その結果、通信量・計算負荷が抑制され、動画全体を通じてエンド・ツー・エンド遅延をほぼ一定に維持できることが確認されたという。

また、処理待ち時間が累積的に増大する傾向は認められなかった。さらに、提案技術の適用によるAIの推論精度の低下も確認されていないとのことだ。

以上より、提案技術はリアルタイム性が要求されるようなユースケースにおいても、AIの推論精度を維持したままエンド・ツー・エンド遅延を安定的に低減できる可能性が確認された。