先日、GPT-4がチューリング・テストにおいて高い合格率を出したという論文がオンラインに公開された。Copilot in WindowsやCopilot in Edgeで使われている言語モデルはGPT-4だと言われている。これはCopilotとの会話が人間らしいものであることを示すひとつの例となる。興味深い内容なので今回はこの件について簡単に取り上げる。

連載「Copilot in Windowsを使ってみよう」のこれまでの回はこちらを参照

人間と区別が難しくなっている? GPT-4

Copilot in WindowsやCopilot in Edgeでは大規模言語モデル(LLM:Large Language Model)としてGPT-4が使われているとみられている。

先日、このGPT-4がチューリング・テストで54%という高い合格率を示したことを示す論文がオンラインに公開された。

  • [2405.08007] People cannot distinguish GPT-4 from a human in a Turing test

    [2405.08007] People cannot distinguish GPT-4 from a human in a Turing test

興味深い内容なので今回はチューリング・テストやこの論文が指摘している内容を取り上げる。

チューリング・テストとは

コンピューターサイエンスの分野で有名な概念であり思考実験のひとつにいわゆる「チューリング・テスト」と呼ばれるものがある。チューリング・テストは科学者アラン・チューリング氏が1950年に発表した次の論文で提案された概念を示す言葉として使われることが多い。

この思考実験は機械は考えることができるかどうかという問題提起に関する新しい提案のひとつという側面がある。この論文では具体的な実験方法や詳細な判断基準といったものは定義されておらず、機械の「知能」の可能性について議論を促す目的を持った思考実験を提案するといった内容になっている。

説明されているチューリング・テストは「模倣ゲーム」と呼ばれるゲームを通じて機械が人間を騙すことができるかどうかを調べるものだ。

このゲームには次の3つの主体が参加する。

  • A - 人間(審査員)
  • B - 人間(Aと会話する)
  • C - 知性を模倣するコンピューター(Aと会話する)

AはテキストベースでBおよびCと会話する。このときAはBとCのどちらが人間でどちらがコンピューターかを知らない。どちらとも会話を行い、最後にどちらが人間でどちらがコンピューターかを判断する。一定の割合以上でAがCを人間だと誤認した場合、そのCはチューリング・テストに合格したと考える、というものだ。

この思考実験は内容が分かりやすいしキャッチーな内容であるためか引用されることが多い。ただ当然ながら模倣ゲームは思考実験であり、機械の知能に関する議論を深めるための提案という側面が強く、このテスト自体が機械が思考しているか判断するものではない点には注意する必要がある。

GPT-4でチューリング・テスト

チューリング・テストのアイデアが発表された当時、この実験を簡単に行う方法は存在していなかったが、現在はChatGPTやCopilotを使って簡単にこの実験を行うことができる。先日オンラインに公開された論文はこれを行ったものであり、どのような方法で実験したのか、実験の設計をそのようにした理由はなぜか、どういった考えがあって実験をデザインしたのかがまとめられている。

思考実験としても面白いと思うので、興味がある方は読んでみてもらえればと思う。すべて読むのはしんどいという場合には、Copilot in Edgeを使って概要を読んでみよう。

この論文はPDFの形式でも提供されているし、HTMLの形式でも提供されている。

  • People cannot distinguish GPT-4 from a human in a Turing test - PDF

    People cannot distinguish GPT-4 from a human in a Turing test - PDF

  • People cannot distinguish GPT-4 from a human in a Turing test - HTML

    People cannot distinguish GPT-4 from a human in a Turing test - HTML

英語が苦手という場合にはWebブラウザの翻訳機能が便利だと思うので、HTML版を試してみよう。例えばHTML版を表示した状態で、会話スタイルを「より厳密に」にしてからページの要約を生成させてみる。

  • People cannot distinguish GPT-4 from a human in a Turing test の要約をCopilotに生成させたサンプル

    People cannot distinguish GPT-4 from a human in a Turing test の要約をCopilotに生成させたサンプル

Copilotが生成した要約は内容を比較的よく表しているようにみえる(生成された要約ではターリング・テストと記載されているが、これはチューリング・テストのこと)。

なお、原文を読むときはMicrosoft Edgeの翻訳機能を使うとざっくりと日本語で読むことができる。メニューから「日本語に翻訳」を選択すればよい。

  • Microsoft Edgeの翻訳機能を使って日本語で読んでいるサンプル

    Microsoft Edgeの翻訳機能を使って日本語で読んでいるサンプル

翻訳してみると分かると思うが、生成AIが生成した要約は論文の要約の部分に書いてある内容とほとんど同じだ。論文の場合、要約のセクションに内容がよくまとまっているので、最初にここを読むと良いだろう。

GPT-4の高い合格率、良くも悪くも

この論文ではデザインした2人バージョンのチューリング・テストで、人間と3つの生成AIがそれぞれ次の合格率を示した点が注目される。

  • 人間 67%
  • GPT-4 54%
  • GPT-3.5 50%
  • ELIZA 22%

この結果はGPT-4が知能を得ているとか得ていないとか、そういったことではない。論文でもこの点に関しては次のように説明している。

Ultimately, it seems unlikely that the Turing test provides either necessary or sufficient evidence for intelligence, but at best provides probabilistic support (Oppy and Dowe, 2021). Fortunately, the kind of evidence it provides complements other evaluation approaches (Neufeld and Finnestad, 2020).

(参考訳:結局のところチューリング・テストが知能の必要証拠にも十分証拠にもなりそうもないが、確率的な裏付けを与える程度にはなりそうだと言える(Oppy and Dowe, 2021)。幸いなことに、チューリング・テストが提供する証拠は他の評価アプローチを補完するものにはなる(Neufeld and Finnestad, 2020))

注目したいのは人間が67%であり、GPT-4が54%であるということだ。GPT-4は人間に及ばないものの、過半数という合格率を示している。しかも、GPT-3.5が50%であり、GPT-4になって若干合格率が増加している点にも注目したい。これは今後GPTシリーズがさらに今後の新しい言語モデルで合格率を挙げてくる可能性も示しているようにみえる。

この合格率に関して論文では次のような説明を行っている。

Participants in our experiment were no better than chance at identifying GPT-4 after a five minute conversation, suggesting that current AI systems are capable of deceiving people into believing that they are human. The results here likely set a lower bound on the potential for deception in more naturalistic contexts where, unlike the experimental setting, people may not be alert to the possibility of deception or exclusively focused on detecting it.

(参考訳:私たちの実験において参加者が5分間の会話後にGPT-4であると見抜く確率は偶然一致するといった確率を超えることはなかった。このことは現行のAIシステムが人間であると信じ込ませることができる能力を有していることを示唆している。ここで得られた結果は、実験環境とは異なり、人々が欺瞞の可能性に注意を払っていなかったり、欺瞞の検出に専念していない、より自然な状況における欺瞞の可能性の下限を設定するものといえる)

この指摘のとおり、現在のGPT-4は人間を騙すのに十分な性能を備えている可能性があることを示唆している点に注目する必要がある。

生成AIについての学びを続けよう

生成AIがさまざまな業務や作業を効率化する強力なツールであることは間違いのないところだが、それと同時に、犯罪に使える強力なツールであることもまた間違いない。この論文の実験結果はGPT-4がテキストベースの会話で自分を人間だと誤認させる能力を備えていることを示唆している。

生成AIの登場以降、フィッシング詐欺などに使われるメッセージから文法ミスや誤った文章が減り、より本物らしさが増えたことは複数のサイバーセキュリティベンダーが報告しているところだ。これは脅威アクターが生成AIを使ってより自然なメッセージを生成するようになったためだと推測されている。

これまで日本におけるフィッシング詐欺は使われている日本語の不自然さなどから詐欺であることを見抜けるケースも多かったのだが、生成AI登場以降は以前にも増して自然な日本語が使われるケースが増えている。日本語をネイティブラングとしていない脅威アクターが生成AIを使うことでより自然なメッセージを生成し悪用できるようになったことが影響しているものとみられる。

生成AIのチューリング・テスト合格率が上昇するほど人間としては生成AIとのやり取りがより人間と同じようなものになっていく。しかしその反面、生成AIを活用した犯罪において生成AIが使われていることを見抜くことも難しくなるということだ。

良くも悪くも生成AIは現在急速な発展の真っ只中にある。ユーザーは生成AIに関する新しい情報を定期的に入手し、自分の知識をアップデートしていくことが望まれている。

付録: ショートカットキー

ショートカットキー 内容
「Windows」+「C」 Copilot in Windowsの表示・非表示を切り替え

付録: 対応バージョン

OS バージョン
Windows 11 Windows 11, version 22H2以降
Windows 10 Windows 10, version 22H2以降のProおよびHome

参考