NEC、LLMと映像認識AIで動画から説明文章を自動生成する技術を開発

NECは12月5日、生成AIを支える大規模言語モデル(LLM)と映像認識AIを組み合わせ、長時間の動画から利用者の目的に応じた短縮動画と説明文章を自動生成する技術を開発したことを発表した。NECが開発したコンパクトで高性能なLLMと、高速なデータ検索システムを活用することで、1時間以上の動画から、目的のシーンの動画と説明文章を数秒間で作成可能となっている。

同技術には、100以上の映像認識AIが活用されており、シーンを構成する人物、車、建物、動物、樹木などの自然物、天気などのさまざまな物体や環境と、それらの変化を個別に認識することができるという。

その認識結果だけをLLMで分析することで、動画全体を分析する場合と比較して、利用者が求めるシーンを効率的に見つけ出すことができ、目視による動画の繰り返し確認が不要となる。

活用の場所として、まずはドライブレコーダーの動画分析が想定されており、同技術によって事故発生時の状況や発生に至った経緯などを説明する文章と短縮動画を自動で生成可能となる。

また、それらをもとに、損害保険金請求や交通安全指導などに向けた事故調査報告書を、フォーマットに合わせて自動作成することも可能。これにより、従来は手作業で行っていた報告書の作成にかかる時間を半減できるという。

同技術のデモ画面

加えて同技術の特徴として、生成文章の品質を向上させるために、対象分野のサンプル映像を使ってLLMを事前にファインチューニングすることもあげられている。

例えば、ドライブレコーダーの動画に適用する場合、事前に道路交通関係の動画を分析することにより、LLMが専門知識を備え、動画内で起きた出来事を正しく理解できるようになる。その結果、生成AIの正確性の課題であるハルシネーション(生成AIが誤った情報を、もっともらしい形式で出力してしまう現象)に対応しながら、信頼性の高い報告書を作成できるようになるという。