リコーは1月8日、アリババクラウドが開発するLLM(Large Language Models:大規模言語モデル)ファミリーの「Qwen2.5-VL-32B-Instruct」をベースとして、日本企業の図表を含むドキュメントの読み取りに対応するLMM(Large Multimodal Model:大規模マルチモーダルモデル)を開発したことを発表した。
LMM開発の背景と社会課題
LMMとは、テキストだけでなく、画像・音声・動画など複数の種類のデータを同時に処理できるAI技術を指す。スクリーンショットからのテキスト要約や、図を用いた質問への回答など、幅広いデータ形式の処理に対応が可能。
企業内で蓄積されるドキュメントには、請求書や領収書などのトランザクションデータ、事業戦略や計画などの経営資料、サービスマニュアルや社内で定めた技術標準、品質管理基準などの技術文書など、さまざまな種類や形式のものが含まれる。これらのドキュメントにはテキスト情報だけでなく、図や表組、画像などの情報も含まれる。
こうした企業内文書を効率的に活用することで、新たな価値創出やイノベーションが期待される一方で、「テキスト検索でも意図した結果が得られない」「検索のみの利用では効果的な活用ができていない」といった課題も挙げられる。
また、労働力人口の減少を背景とした効率的な働き方の必要性や、ベテラン社員の退職に伴う技能とノウハウの継承、外国人労働者の増加に対応した社内文書の多言語化など、企業を取り巻く経営課題は複雑化している。
これらの課題に対し、AIを活用して企業内に蓄積された知識をより効率的かつ付加価値を高めながら活用したいというニーズも高まっている。一方で、既存のLLMやLMMでは、きめ細かな画像認識が求められるビジネス文書の読解精度においては課題が残されていた。
開発したLMMの概要
新たなモデルの開発においては、文字、円グラフ、棒グラフ、フローチャートなど、ビジネス文書で活用される視覚データ約60万枚を、自社で開発したチューニングデータとして利用しLMMに学習させたという。
視覚情報とテキスト情報の双方を活用する日本語の質問応答データセット「JDocQA」などのベンチマークツールによる検証の結果、他のモデルと比較しても優れた性能を示したとのことだ(2025年12月17日時点)。
このモデルは今後、「RICOH オンプレLLMスターターキット」に搭載し、リコージャパンから提供される予定。
