リコーは6月3日、理化学研究所 革新知能統合研究センター 言語情報アクセス技術チーム(以下、理研 AIP)との共同開発で得られたインストラクションデータをリコー製LLM(Large Language Models:大規模言語モデル)に追加学習させ、LLMの指示追従性能が向上するという結果を得たことを発表した。なお、リコーは同チームが主催する日本語インストラクションデータ作成プロジェクトに参画している。
また、リコーが独自開発したインストラクションデータを追加学習させた結果においても、指示追従性能の向上を確認し、要約タスクでの優位性を確認したとのことだ。
実証の結果
今回、インストラクションデータ「ichikara-instruction」(1万0329件)を用いて、リコー製LLMにインストラクションチューニングを実施した。インストラクションチューニングとは、タスクに対して指示(プロンプト)と正しい回答(インストラクションデータ)をセットで与えて受け答えを学習させる手法を指す。
その結果、複雑な指示やタスクを含む代表的なベンチマーク「ELYZA-tasks-100」において、チューニング前と比較して指示追従性能のスコア向上を確認した。また、リコーが独自開発した3556件のインストラクションデータを用いたチューニング結果でも、同ベンチマークにおいてスコアが向上した。
これらの結果から、「ichikara-instruction」はインストラクションデータとして高品質なデータセットであり、LLMの性能向上にはデータ量だけでなくデータの品質が重要であることが示唆された。
また、要約タスクを評価したところ、特に長文要約においてリコー製データセットの優位性を確認できたという。AIによる要約生成は需要が高く、リコーは特に強化する領域だとしている。同社は継続的にデータ開発を進めており、2024年5月末時点では5000件超のインストラクションデータを開発しているとのことだ。
リコー製LLMの特長
リコーはユーザーの想定用途に合わせて、さまざまなデータを使ってドメイン適用された高精度なAIモデル(プライベートLLM)の個別開発を進めている。リコー製LLMは日本企業の業務における活用を目的に開発され、企業ごとのカスタマイズが容易な点が特徴とされる。
独自の学習上の工夫が組み込まれており、日本語としての文法や回答が正確で日本語精度が高く、日本企業が持つ情報資産の活用に適しているとのことだ。特にNLI(Natural Language Inference:自然言語推論能力)において高性能。2024年4月からは、プライベートLLMをクラウド環境で提供開始している。