リコーは6月10日、図表やイラストを含むドキュメントの読み取りに対応可能なLMM(Large Multimodal Model:大規模マルチモーダルモデル)の基本モデルの開発を完了したことを発表し記者説明会を開いた。

なお、この開発は経済産業省と新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内の生成AI開発力の強化を目的とするプロジェクト「GENIAC(Generative AI Accelerator Challenge)」において採択されたもの。

視覚とテキストの両方の情報を活用する日本語質問応答データセット「JDocQA」および独自ベンチマークツールを用いて検証した結果、他モデルと比較して高い性能を示したという(2025年4月24日時点)。リコーはこれらの研究結果について、7月29日から開催される画像の認識・理解シンポジウム「MIRU2025」で論文を発表し、開発した基本モデルおよび独自に開発したベンチマークツールを無償で公開する。

なぜリコーがモデル開発に挑戦するのか

リコーのAI開発の歴史は、機械学習を活用したOCR(Optical Character Recognition/Reader:光学文字認識)や、画像とテキストを融合した検索技術など、深層学習(ディープラーニング)が登場する前の従来の機械学習の時代までさかのぼる。

その後は外観検査向けAIや路面性状検査システム、振動モニタリングなどの技術を開発してきた。深層学習が登場して以降はAIによるテキスト処理能力が向上したため、リコーが強みとするドキュメント処理を対象としたAIの開発を強化している。

昨今の生成AIブームが顕著なように、LLM(Large Language Models:大規模言語モデル)によるテキスト処理性能は業務効率化に役立つと期待される。リコーは2023年3月に国内の他社に先がけてパラメータ数が6B(60億)のモデルを公開しており、その後も13B(2024年1月)、70B(2024年8月)などを次々と公開した。

  • リコーのLLM開発の歴史

    リコーのLLM開発の歴史

リコーのLLM開発で一貫しているのは、LLamaシリーズなどオープンソースなモデルをベースに独自の学習を行っている点。2024年9月に公開した70Bモデルは異なるモデルを組み合わせるモデルマージの手法を取り入れ、性能の向上を図った。2025年4月に公開した70BモデルはGPT-4o(gpt-4o-2024-08-06)と同程度の性能を達成している。

テキスト処理能力が日進月歩で向上するLLMではあるが、リコーのAIサービス事業本部で本部長を務める梅津良昭氏は「当社は企業の『知』の結晶である社内文書の処理にも有効なAIを開発したい」と説明した。

  • リコー リコーデジタルサービスビジネスユニット AIサービス事業本部 本部長 梅津良昭氏

    リコー リコーデジタルサービスビジネスユニット AIサービス事業本部 本部長 梅津良昭氏

日本企業で多く扱われる社内文書はグラフをはじめとする図表やフローチャートなどイラストが多く、従来のLLMでは処理が難しい。そこで同社は、図表やイラストを含むドキュメントから適切に情報を抽出できるマルチモーダルモデルの開発を進めた。

  • 日本企業が扱う文書はLLMだけでは対応が難しい

    日本企業が扱う文書はLLMだけでは対応が難しい

また、企業内で活用されるドキュメントは社内用語や機密情報が多いことから、プライベート環境でも稼働するサイズのモデルとすることも目指したという。

  • リコーがLMM開発に取り組む意義

    リコーがLMM開発に取り組む意義

リコーが開発したLMMの成果と性能

リコーは基本モデルの開発に際して、文字 / 円グラフ / 棒グラフ / フローチャートなどの視覚データを、計600万枚以上人工生成した。こうした学習用データの人工生成手法を確立することで、大量の学習用データを整備しLMMの性能向上を進めたという。

リコーが主催するアクセラレータープログラム「TRIBUS(トライバス)2022」での採択をきっかけに協業を進める開発パートナーのFastLabelは、学習用および評価用の実データの収集とアノテーション業務を支援した。

アーキテクチャの改良なども実施した結果、QwenやLLamaなど同規模のオープンソースモデルよりも高い日本語性能を達成している。同社は近日中に、基本モデルと日本語の図表に特化した独自評価環境を公開予定。

  • リコー版LMMの処理例
  • リコー版LMMの処理例
  • リコー版LMMの処理例

    リコー版LMMの処理例

セキュリティやプライバシー、ガバナンスなどの観点から、オンプレミスや自社データセンターなどプライベート環境でAIの利用を検討する企業も多い。そのため、省リソースで稼働するAI活用の需要も高まっている。

リコーは個社向けのチューニング技術も確立しており、賛同を得た企業から数百~数千件程度のデータを受領し、その企業の業務内容な用途に応じたチューニングを実施した。その結果、限られた量の顧客データを使い、基本モデルと比較してチューニング後のモデルが高い性能を示すことが確認された。

  • 個社向けのチューニング技術も確立した

    個社向けのチューニング技術も確立した

今回リコーが開発したモデルは大きく3層構造に分けられ、図表を処理するVision Encoder(ビジョンエンコーダー)という第1階層と、第1階層からの出力を後段のLLMが理解できる形式に変換するAdapter(アダプター)という第2階層、そして第2階層で変換された情報と文字情報を統合処理するLLMの第3階層で構成される。

各階層は複数のオープンソースモデルの中から比較し、評価して取捨選択したという。第1階層においては複数のVision Encoderを評価し、「Qwen2-VL-7B-Instruct」に採用されている手法を選定。第3階層においてはオンプレミス環境で実装可能な70Bクラスのモデルを複数評価し、「Llama-3.1-Swallow-70B-Instruct-v0.3」を選定した。

開発元が異なるため本来は接続できないVision EncoderとLLMに対し、第2階層として制度を維持しながら接続を可能とするAdapterを開発。最後に3層に対し独自生成した多量の図表データを用いて学習し、高い性能を獲得した。

  • リコー版LMMの構造

    リコー版LMMの構造

梅津氏は「日本の企業で扱われる社内文書は、欧米の資料と比較して段組みや図表が独特なため、AIによる読み取りが難しい。海外のオープンソースモデルではそこまで対応するのが難しいので、日本国内向けに当社がモデルを開発している。グローバルに展開するというよりも、日本企業で『Excel方眼紙』などと呼ばれる独自フォーマット資料の処理を支援していく。今後は製品化を急ぐ予定」と説明した。