リコー、生成AIの推論性能を測る独自開発のベンチマークを無償公開

リコーは5月29日、図表を含む日本語ドキュメント理解におけるAIの推論性能を評価するベンチマークツール「JDocQA Reasoning Benchmark」(以下「新ベンチマーク」)を開発し、同日より無償公開したことを発表した。

生成AIの技術進化や社会的な変化により、AIが複雑な情報を含む非構造化データをいかに正確に理解し、理論的に推論できるかが重要になっている。一方で、特に日本語ドキュメント特有の図表を含む情報を正確に解析・評価することは、依然として難しいとされている。

リコーは、経済産業省と新エネルギー・産業技術総合開発機構(NEDO)が実施する、国内における生成AIの開発力強化を目的としたプロジェクト「GENIAC(Generative AI Accelerator Challenge)」の第3期において、図表を含むさまざまなドキュメントを高精度に読み取り推論できるマルチモーダル大規模言語モデル(LLM)の基本モデル「Qwen3-VL-Ricoh-32B-20260227」、および「Qwen3-VL-Ricoh-8B-20260227」を開発していたとのこと。そしてそれらの性能を適切に評価するための基盤整備として、併せて新たなベンチマークの開発に取り組んだとする。

今回開発された新ベンチマークは、視覚とテキスト両方の情報を活用する日本語の質問応答データセット「JDocQA」のテスト画像のうち、棒グラフ・折れ線グラフ・財務諸表・路線図など20種類以上の図表を含むサブセットを対象として、リコーが独自に一問一答形式のQAアノテーションを新規で付与したとのこと。全1287問で構成されるといい、QAは図表に含まれる内容に関する質問に限定したうえで、抽出(図表やフローに示された情報をそのまま取り出す)・計算(抽出値をもとに四則演算や統計的集約などの数値処理を行う)・比較(複数の値や要素を対比し関係性を明らかにする)・補完(欠落データを既存要素から推定・再構成する)という多様なタスクを設計することで、図表の読み取り能力と推論能力の多角的な評価が可能だとしている。

またこのデータセットは、評価コードがApache License 2.0、QAアノテーション部分がCC BY-SA 4.0でオープンソースとして公開されており、商用・非商用を問わず幅広く利用可能だとする。

リコーはこの新ベンチマークの無償公開を通じて、生成AIの推論性能向上と実用化を支援し、企業におけるデータ活用の高度化に貢献していくとのこと。そして今後も、同社が企業理念の使命と目指す姿として掲げる「“はたらく”に歓びを」の実現に向け、業務革新と付加価値創出に取り組むとしている。