リコーは4月3日、米Meta Platformsが提供する「Llama-3.3-70B-Instruct」の日本語性能を向上させた「Llama-3.3-Swallow-70B-v0.4」をベースモデルに、同社のInstructモデルから抽出したChat Vectorと、リコー製のChat Vectorをマージすることで、リコーが開発する700億パラメータの日本語LLM(Large Language Models:大規模言語モデル)の性能を向上させたことを発表した。

ベンチマークツールによる検証の結果、米OpenAIが開発したGPT-4oと同程度の性能が確認された(2025年3月25日時点)。リコーは、高性能でありながら省コスト・省リソースを実現し、オンプレミス環境でユーザーが独自の情報で追加学習可能なプライベートLLMとして企業内での導入を支援するとしている。

評価の結果

評価では、複雑な指示やタスクを含む代表的な日本語ベンチマーク「ELYZA-tasks-100」と日本語のマルチターンの対話能力を評価する「Japanese MT-Bench」の2つのベンチマークツールを組み合わせて、平均スコアを比較した。

その結果、今回リコーがモデルマージの手法で開発したLLMは、GPT-4o(gpt-4o-2024-08-06)と同程度のスコアを示した。なお、評価には「gpt-4o-2024-08-06」を使用した。

  • ベンチマークツールにおける他モデルとの比較結果

    ベンチマークツールにおける他モデルとの比較結果

リコーのLLM開発

生成AIの普及に伴い、企業が業務で活用できる性能を持つLLMへのニーズが高まっている。しかしLLMの追加学習にはコストと時間を要する課題がある。こうした課題に対し、複数のモデルを組み合わせてより高性能なモデルを構築する「モデルマージ」が効率的な開発手法として注目されている。

今回、リコーはモデルマージのノウハウとLLM開発の知見を生かして新たなLLMを開発。今後は自社製LLMの開発にとどまらず、ユーザーの用途や環境に最適なLLMを低コストかつ短納期で提供するために、効率的な手法や技術の研究開発を推進するとのことだ。