LLMや生成AIに潜むリスクにどう対抗すべきか、ヒントは自動車産業に？

国立情報学研究所（NII）はこのほど、研究成果を共有する場として「オープンハウス2024」を開催した。本稿では同イベントの基調講演の中から、SB Intuitionsの取締役を務める井尻善久氏が語った、LLM（Large Language Models：大規模言語モデル）と生成AIのリスクとその対策について紹介したい。

SB Intuitions 取締役兼 CRO 井尻善久氏

国内最大規模の日本語LLM構築を目指すSB Intuitions

SB Intuitionsはソフトバンクの100%出資子会社として、生成AI技術の研究開発、特に日本語最高品質のモデル創出を目指して取り組んでいる。国内最大規模の計算基盤を構築した上で、医療や教育など各産業領域に個別のソリューションを提供する方針だ。

井尻氏は生成AIの開発について、「学習アルゴリズム」「計算機」「データ」の3要素に「安全性」を加えて、3+1モデルで説明した。

学習アルゴリズムについて、SB IntuitionsではGPTやLlamaといった海外ベンダーのモデルに対し継続学習するのではなく、フルスクラッチで学習を行っている。それは、最高品質の日本語能力を目指しているからだという。

一般的なタスクであれば英語モデルでも高い性能を発揮できるのだが、日本の文化や歴史といった詳細な知識を得るためには、やはり日本語を用いてフルスクラッチで学習したモデルの方が高い性能を発揮する。

日本語のクイズに対する回答を生成するタスクであるAI王のデータセットを用いたテストの結果、同社のモデルはLlama2やGPT-4と比較して高い正解率を達成したとのことだ。

日本に関する知識を求めるタスクで高い性能を発揮した

加えて、スケール則（Scaling law）として知られるように、データセットのサイズ、計算能力、パラメータのいずれを増やしても、モデルの精度が向上することが明らかになっている。そのため、同社は大規模な計算資源の上で日本語に特化したモデルの構築を試みている。

スケール則

ちなみに、NIIオープンハウスが開催された6月時点で2000基以上のNVIDIA TensorコアGPUを搭載したNVIDIA DGX SuperPODを使用しているが、今後さらに数万基規模までGPUを増設予定だという。

しかしその一方で、パラメータ数の多さと性能の高さは必ずしも比例するわけではないそうだ。モデルが高い性能を発揮するためには、パラメータ数と学習データ量の両方が必要となる。むしろ、どちらかと言うと学習データ量を増やすのが最近のトレンドとのこと。

パラメータ数とモデル性能は必ずしも一致しないそうだ

交通・自動車産業をモデルにAIの活用を促進

井尻氏は生成AIのリスクについて、「法的課題」「経済的課題」「倫理的課題」「社会的課題」の4つの側面から指摘し、講演ではこのうち法的課題と倫理的課題について解説された。同氏は以下のように、ガードレールや車検など、交通・自動車産業になぞらえて示していた。

生成AIが抱える4つの課題

法的課題

法的課題の代表的なものが、著作権の問題だ。言語生成モデルであっても画像生成モデルであっても、AIが既存のデータを用いて学習している以上は著作権侵害の可能性は拭い去れない。

「言語生成モデルは単語間の隣接確立を学習しているので『吾輩は』の次に『猫である』と続けてしまうようなもの」（井尻氏）

これに対し重要となるのは、技術的な措置としてガードレールを設けることだ。RAG（Retrieval Augmented Generation：検索拡張生成）は学習データに基づく出力を検索による情報で補完する仕組みであるため、むしろ必要な情報を抽出していることから、検索対象データの権利処理が必要となる。

著作権侵害の懸念

技術的措置としてのガードレールは、大きく3つのステップで構成される。入力制御の段階では、有害な生成要求が無いかを確認する。続く生成の段階では、インストラクションチューニングなどにより有害な要求に対して社会的・倫理的に正しい応答ができるように訓練する。出力制御の段階では、出力に有害なデータが含まれた場合にフィルタリングを掛けたり再生成したりする仕組みを設ける。

このようなガードレールの仕組みとデータの権利処理によって、有害な表現や著作権を侵害し得る表現ができないように事前に処置しておくことで、生成AIはより有効に活用できるだろう。