リコーは8月28日、米Meta Platformsが提供する「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.3」をベースモデルに、有害な入力を判別するガードレール機能を備えたLLM「セーフガードモデル」を開発したことを発表した。

このモデルは2024年10月に同社が立ち上げたLLMに対する社内の安全対策プロジェクトから生まれたものだという。今後は、国内販売会社のリコージャパンが2025年4月から提供開始している「RICOH オンプレLLMスターターキット」に標準搭載し、安全な生成AIの活用を支援するとのことだ。

  • セーフガードモデルの概要図

    セーフガードモデルの概要図

開発の背景

生成AIの社会的な広がりとともに、AIを活用した業務の生産性向上や付加価値の高い働き方が注目されている。一方で、生成AIの安全な利活用には多くの課題が残される。

リコーはLLMの安全性対策を目的とした社内プロジェクトを立ち上げ、規制や技術動向の把握に加え、LLMの安全性に関する評価指標の整備や、安全性を満たす効果的な手法の開発、それらの社会実装に向けて取り組んできた。有害情報の入力を判別するセーフガードモデルは、その取り組みの一環として開発されたものだ。

開発したセーフガードモデルについて

セーフガードモデルはLLMに対するガードレールとして機能し、入力されたテキストを監視して、不適切な内容や有害な内容を自動で検出する。具体的には、暴力や犯罪、差別、プライバシー侵害など14種類のラベルに分類された数千件のデータを学習させることで、これらに該当するプロンプトを判別する。

現段階ではプロンプト入力を対象とした防御機能ですが、今後はLLMからの出力内容に対しても安全性を判別する機能を追加で開発予定だ。さらに、一般的な有害表現だけでなく、「業務に無関係な内容をブロックしたい」といった個別の要望へのカスタマイズ対応も検討しているという。