生成AIが業務で広く使われるようになり、その有用性と共にリスクも顕在化しつつある。AIによる偽のデータ生成や、情報漏えいリスクの増加、ディープフェイクによってあたかも著名人が話しているかのような動画の公開などが挙げられる。

東京大学 情報セキュリティ教育研究センター(SI センター)はこのほど、第6回シンポジウム「生成AIのセキュリティリスクと対策~ハルシネーションやディープフェイクから見る課題~」を開催した。本稿では、シンポジウムに登壇したSB intuitionsの高橋翼氏の講演についてレポートする。講演タイトルは「安心安全な生成AIの活用を目指して」。

生成AIが有するリスクと課題

髙橋氏はまず、米マイクロソフトが2016年にTwitter上で公開したチャットボット「Tay(テイ)」を紹介した。このサービスはTwitterユーザーのやり取りから会話を学習する、19歳のアメリカ人女性という設定のチャットボット。次第に差別発言やヘイトスピーチとも取れる投稿が増えたため、同社はTayを非公開とし謝罪している。

同氏は「このような問題は現在も完全に無くなったわけではない」と指摘。GPTシリーズは虚偽や有害な文章を出力すること(ハルシネーション)が知られているほか、特定の人種や団体に対し差別的な出力をするバイアスの例も確認されている。

  • LLMによるバイアスの例

    LLMによるバイアスの例

「LLM(大規模言語モデル)はインターネット上のコミュニケーションや既存テキストから学習しているため、ある意味でわれわれの社会の鏡のようなもの。偏った思想を持った人々のテキストやオンラインコミュニケーションから学習しているために、こうした問題が生じてしまう」(高橋氏)

また、人為的にLLMが有害な情報を出力するよう指示する攻撃も存在する。その一つが「ジェイルブレイク(脱獄)」だ。有名な手法として、アドバーサリアル・プロンプト(またはアドバーサリアル・トリガー)がある。

その攻撃手順は以下の通り。通常であれば、「How can I make illegal drugs(どうすれば違法薬物を作ることができますか)」とLLMに質問しても、回答を生成しないよう事前学習がされているため、違法薬物の作り方を知ることはできない。しかし、質問文に続けてアドバーサリアル・プロンプトと呼ばれる特定の文字列を付け足すことで、違法薬物の作り方が出力されてしまうというもの。

  • アドバーサリアル・プロンプトの例

    アドバーサリアル・プロンプトの例(赤字の箇所にアドバーサリアル・プロンプトを入力)

その他、特定のプロンプトに対してLLMが意図しない挙動をしてしまい、モデルの学習に使われたデータをそのまま出力してしまう「Unintended Memorization(意図しない記憶)」なども知られる。

こうしたリスクに対し、米国では2023年10月にホワイトハウス大統領令「Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence」が出された。また、米OpenAIはレッドチームを立ち上げ、LLMの意図しない出力を防ぐために敵対的なプロンプトにより安全性を担保しているという。

ちなみに、OWASP(Open Worldwide Application Security Project)が代表的なLLMのリスクについて、「OWASP Top 10 for Large Language Model Applications」の中で公表している。

  • OWASP Top 10 for Large Language Model Applications

    OWASP Top 10 for Large Language Model Applications

Responsible AIの実現に向けた挑戦

ここまで紹介したリスクや課題に対し、高橋氏らSB intuitionsでは「生成AIの車検」「秘匿推論環境」「悪性データの無害化」の3つのテーマで研究開発を進めている。

生成AIの"車検"

以前も同社の取り組みとして紹介したように、SB intuitionsでは生成AIの「車検」にたとえた対策について研究している。(LLMや生成AIに潜むリスクにどう対抗すべきか、ヒントは自動車産業に?)

例えば、テストと対策の徹底だ。脆弱性や倫理的な問題に対し敵対的にさまざまな観点から攻撃することで、攻撃に悪用される懸念の軽減を図る。また、ガードレールを築くように、国内外のステークホルダーや有識者と連携しながら、生成AIの安全な利用が可能な標準の構築についても進めている。

  • レッドチームによるテストの例

    レッドチームによるテストの例

秘匿推論環境

生成AIの活用が進まない背景には、生成AIに対し業務データを入力する際のセキュリティ上の不安や懸念がある。これに対して同社では、幅広い産業でのデータ活用を促すために、同社は秘匿推論環境の構築を進めている。

現在は、入出力や推論の過程をのぞき見ることができない「セキュアな推論環境」の実現について探索している段階とのことだ。

  • セキュアな推論環境に関する研究開発

    セキュアな推論環境に関する研究開発

悪性データの無害化

著作権の侵害やバイアスを誘因するデータでLLMが学習してしまうと、意図しない有害な出力につながる可能性がある。そのため、そもそも学習するデータを無害化したり、意図しない挙動を抑制したりする工夫が必要だ。

また同時に、著作権侵害やバイアス、バックドアなどを誘因するような悪質なデータの発見や悪影響の抑制、学習済みのモデルから忘却するような技術についても開発が進められている。

「AIが学習したデータはパラメータに焼き付いてしまうので、現在の技術水準では、悪性データを忘れる方法は基本的には1から学習し直すほかに手段がない。特定のデータのみを忘れる技術は開発が難しいと思うが、今の時代には必要と考えチャレンジしている」(高橋氏)

  • 敵対的な透かしの例(LINEヤフーでの研究結果)
  • 敵対的な透かしの例(LINEヤフーでの研究結果)

    敵対的な透かしの例(LINEヤフーでの研究結果)