NTTがLLMで文書画像を視覚的に読解する技術を開発 - tsuzumiに搭載し展開も

日本電信電話（NTT）は4月12日、LLM（Large Language Models：大規模言語モデル）によって視覚情報も含めて文書を理解する「視覚読解技術」を実現したことを発表した。実験においては、文書画像を提示しながらさまざまな質問への回答が可能なAIの実現可能性も示唆されているという。この成果はNTT版LLMである「tsuzumi」のアダプタ技術として採用される。

従来のLLMの課題

従来の読解技術は、図表中のテキストを抽出しているため文字の見た目やレイアウトなどの資格情報までは処理できない点が課題だった。請求書に関する情報抽出タスクなど任意の個別タスクには対応できない課題もあり、高い性能を出すには目的のタスクごとに一定数のサンプルを用意して学習を行う必要があるため、手間やコストの点で現実的ではない。

従来の視覚情報処理のイメージ

そこで同社は、汎用的な言語理解と生成能力を持つLLMをベースとして、任意のタスクのための学習を行わなくても応答できる指示遂行能力を視覚読解モデルで実現することを目的に研究を開始した。

具体的には、テキスト情報しか理解できないLLMに対して、文書画像に含まれる図表などの視覚情報をテキストと融合させて適切に処理させる手法を研究したという。

提案する技術のポイント

研究チームは視覚読解技術の開発に向けて、「文書画像をLLMの表現に変換可能な新たなアダプタ技術の開発」および「多様な視覚読解タスクを対象とした指示遂行データセットの構築」を実施した。

新たなアダプタ技術

モデルの概要は下図の通り。指示文に基づいて任意の視覚文書理解タスクを実行可能なモデルだ。このモデルは文書画像を与えると、文字読みとりに加えて画像エンコーダによって画像情報を取得する。回答を出力するLLMに情報を渡す前にアダプタで情報の橋渡しを行う仕組み。

開発したモデルの概要図

モデルの大部分を占める画像エンコーダやLLMのパラメータは固定して、軽量なアダプタ部分のみパラメータを学習するようにしたことで、効率的な学習を実現している。

このアダプタはTransformerを活用して、文書画像に含まれるレイアウトや視覚情報をLLMが処理できる形式に変換するというもの。画像エンコーダの出力に加えて指示テキストや文字情報および文字の位置情報と、学習可能トークンと呼ばれるベクトルを入力すると、LLMの入力に利用可能なトークンが出力される。

Transformerのイメージ

これにより、LLMが文書の内容を視覚と言語を融合しながら処理し、任意のタスクを追加学習なしで遂行できるようになったという。例えば、文書を検索してスクリーニングを行う業務や、専門文献の読書補助などオフィス作業や日常生活におけるヒトの認知が必要なシーンにおいても、LLMを活用できるようになるとのことだ。