富士通は12月12日、製造や物流などの現場に設置されたカメラ映像を認識し解析するとともに、作業指示や規則などのドキュメント情報を参照して自律的に現場改善の提案や作業レポートの作成を行うことで、人の作業を支援する映像解析型AIエージェントを開発したことを発表した。
ドキュメント情報をもとに現場理解能力を拡張する自己学習技術
今回開発した技術は、マルチモーダルLLM(Large Language Models:大規模言語モデル)が映像から認識できない事象については、ドキュメントの言語情報を対応付けて学習し、AIエージェントの映像理解能力を拡張できる。
まず、ドキュメントに含まれる対象物を選択し、機械学習により対象物との距離を推定して3次元データを仮想空間上に作成。次に、ドキュメントから作成した質問と、3次元データから分かる回答を作成し、それらを学習データとしてマルチモーダルLLMをファインチューニングする。この技術によって人と物体の距離を3次元で推定することで、物流や建設の現場における安全管理や、製造現場における作業状況の生産管理システムへの自動入力などを実現するという。
空間理解能力に加え、現場固有の物体認識や人の個別作業の認識など、現場作業支援に必要なさまざまな能力をAIエージェントに追加できるようになる。
映像を効率的に解析するコンテキスト記憶技術
従来のマルチモーダルLLMでは、サイズの大きい長時間の映像を入力する際にフレームを間引くため、時系列で変化のある映像を分析する際に回答の精度が落ちる課題があった。この問題を解決するため、重要な情報に注意を集中することで効率的に視覚情報を処理する人間の「選択的注意」というメカニズムにヒントを得た。
開発した技術では、対象映像の中で特にAIエージェントのタスクで検知したい「人の安全行動」などの主題をプロンプトとして与えると、選択的注意により主題に適合するフレーム内の特徴量のみを選択し、圧縮して映像コンテキストメモリとしてビデオメモリに格納する。
その結果、映像コンテキストメモリを用いることで、フレームを間引くことなく長時間映像をマルチモーダルLLMが扱えるようになるという。富士通によると、2時間以上の映像を含む長時間映像に対する質問回答のベンチマークを行った結果、開発方式は従来のマルチモーダルLLM向けの映像圧縮技術と比較して最小の記憶容量で世界最高の回答精度を達成したとのことだ。
AIエージェント評価環境「FieldWorkArena」
富士通は映像解析型AIエージェントのための評価環境「FieldWorkArena」を、Carnegie Mellon University(カーネギーメロン大学)のグラム・ニュービッグ准教授およびヨナタン・ビスク助教授のチームの監修のもとで開発した。FieldWorkArenaには実際の工場や倉庫の画像や映像、規則や手順書などのドキュメント、模擬の業務システム、AIエージェントが解決すべきタスク群が含まれ、AIエージェントの実業務での性能を評価できる。
富士通は今回開発したAIエージェントを用いて、2025年1月より社内実践を行うとともに、2024年度中に映像解析型AIエージェントのトライアル環境の提供を開始する。今後は店舗、交通、公共安全などさまざまな分野への技術展開も進める予定。
さらに、2024年12月よりFieldWorkArenaの公開をGitHubおよびFujitsu Research Portalにおいて開始する予定とのことだ。