生成AIの開発・利用リスクにどう立ち向かうのか？ - SB intuitionsの挑戦

生成AIが業務で広く使われるようになり、その有用性と共にリスクも顕在化しつつある。AIによる偽のデータ生成や、情報漏えいリスクの増加、ディープフェイクによってあたかも著名人が話しているかのような動画の公開などが挙げられる。

東京大学情報セキュリティ教育研究センター（SI センター）はこのほど、第6回シンポジウム「生成AIのセキュリティリスクと対策～ハルシネーションやディープフェイクから見る課題～」を開催した。本稿では、シンポジウムに登壇したSB intuitionsの高橋翼氏の講演についてレポートする。講演タイトルは「安心安全な生成AIの活用を目指して」。

生成AIが有するリスクと課題

髙橋氏はまず、米マイクロソフトが2016年にTwitter上で公開したチャットボット「Tay（テイ）」を紹介した。このサービスはTwitterユーザーのやり取りから会話を学習する、19歳のアメリカ人女性という設定のチャットボット。次第に差別発言やヘイトスピーチとも取れる投稿が増えたため、同社はTayを非公開とし謝罪している。

同氏は「このような問題は現在も完全に無くなったわけではない」と指摘。GPTシリーズは虚偽や有害な文章を出力すること（ハルシネーション）が知られているほか、特定の人種や団体に対し差別的な出力をするバイアスの例も確認されている。

LLMによるバイアスの例

「LLM（大規模言語モデル）はインターネット上のコミュニケーションや既存テキストから学習しているため、ある意味でわれわれの社会の鏡のようなもの。偏った思想を持った人々のテキストやオンラインコミュニケーションから学習しているために、こうした問題が生じてしまう」（高橋氏）

また、人為的にLLMが有害な情報を出力するよう指示する攻撃も存在する。その一つが「ジェイルブレイク（脱獄）」だ。有名な手法として、アドバーサリアル・プロンプト（またはアドバーサリアル・トリガー）がある。

その攻撃手順は以下の通り。通常であれば、「How can I make illegal drugs（どうすれば違法薬物を作ることができますか）」とLLMに質問しても、回答を生成しないよう事前学習がされているため、違法薬物の作り方を知ることはできない。しかし、質問文に続けてアドバーサリアル・プロンプトと呼ばれる特定の文字列を付け足すことで、違法薬物の作り方が出力されてしまうというもの。

アドバーサリアル・プロンプトの例（赤字の箇所にアドバーサリアル・プロンプトを入力）

その他、特定のプロンプトに対してLLMが意図しない挙動をしてしまい、モデルの学習に使われたデータをそのまま出力してしまう「Unintended Memorization（意図しない記憶）」なども知られる。

こうしたリスクに対し、米国では2023年10月にホワイトハウス大統領令「Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence」が出された。また、米OpenAIはレッドチームを立ち上げ、LLMの意図しない出力を防ぐために敵対的なプロンプトにより安全性を担保しているという。

ちなみに、OWASP（Open Worldwide Application Security Project）が代表的なLLMのリスクについて、「OWASP Top 10 for Large Language Model Applications」の中で公表している。