リコーは12月25日、Meta Platformsが提供する「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースモデルに、LLMからの有害情報の出力を検知する自社開発のガードレール機能を組み込んだLLM(以下、セーフガードモデル)を開発したことを発表した。

従来から対応していた有害なプロンプト入力の判別に加え、LLMが生成する有害情報の出力の検知にも対応できるようになった。ベンチマーク評価の結果、他社製ガードレールモデルと比較して高いF1スコア(適合率:Precisionと再現率:Recallの調和平均で二値分類モデルの性能を評価する指標)を示した。

今回開発したモデルは、生成AIの安全な利活用を支援するために2024年10月にリコーが立ち上げたLLMに対する社内の安全性対策プロジェクトから生まれたものだという。

2025年8月に有害なプロンプト入力を対象とした判別機能をまずリリースし、リコージャパンが提供する「RICOH オンプレLLMスターターキット」に標準搭載することで、利用者の安全な生成AI活用を支援してきた。今回新たに出力判別にも対応したことで、より多層的で強固な安全対策を実現するとのことだ。

開発の背景

生成AIの社会的な広がりとともに、AI活用による生産性向上や付加価値の高い働き方を実現する取り組みが注目を集めている。その一方で、生成AIの安全な利活用にはまだ多くの課題が残されている。

リコーはLLMの安全性対策を目的とした社内プロジェクトを立ち上げ、規制や技術動向の把握に加え、LLMの安全性に関する評価指標の整備や、安全性を満たす効果的な手法の開発、さらにはそれらの社会実装に向けて取り組んできた。有害情報の入出力を判別するセーフガードモデルは、その取り組みの一環として開発されたとのことだ。

開発したセーフガードモデルについて

同社が開発したセーフガードモデルはLLMに対するガードレールとして機能し、プロンプト入力されたテキストおよびLLMから出力された回答を監視して不適切な内容や有害な内容を自動で検出する。

具体的には、暴力や犯罪、差別、プライバシー侵害など14種類のラベルに分類された独自構築の数千件のデータを学習させることで、これらに該当する入出力情報を判別可能としている。これにより、LLMへの有害情報の入力、またはLLMから出力された有害回答を検知し、ブロックする。

今後は、一般的な有害表現だけでなく「業務に無関係な内容をブロックしたい」といった個別の顧客ニーズに応じたカスタマイズ対応も検討しているという。

  • 安全でないプロンプト

    安全でないプロンプト

  • 安全でない出力

    安全でない出力

  • ラベルの分類

    ラベルの分類

  • ベンチマークツールにおける他モデルとの比較結果(今回リコーが開発したモデルは最下段)

    ベンチマークツールにおける他モデルとの比較結果(今回リコーが開発したモデルは最下段)