Tripwireはこのほど、「AI-generated phishing attacks are becoming more convincing」において、AIによって作成された文章が、フィッシングをはじめとするサイバー犯罪に利用可能だという研究の結果について伝えた。WithSecureが実施した調査によると、言語モデル「GPT-3」を利用することで、一見信頼できそうな内容の悪意のあるコンテンツを驚くほど簡単かつ高速に作成できることが明らかになったという。

  • Creatively malicious prompt engineering - WithSecure Labs

    Creatively malicious prompt engineering - WithSecure Labs

GPT-3は、OpenAIが開発した高性能な自然言語モデルであり、深層学習を使用して人間が作成したかのようなテキストを自動生成することができる。2022年後半に話題となったチャットAIもGPT-3による成果物の一つである。WithSecuregは実施した調査の内容は、次のページで説明されている。また、このページでは同調査の詳細なレポートもダウンロードすることができる。

研究者は、GPT-3モデルを使用してサイバー犯罪に利用可能となるさまざまな文章を作成し、どの程度の品質を実現できるかを調べたという。作成されたコンテンツの例としては、以下が挙げられている。

  • ユーザーをだまして悪意のある添付ファイルを開かせたり、悪意のあるリンクにアクセスさせたりするフィッシングコンテンツ
  • 嫌がらせやブランド毀損などを目的としたソーシャルメディアメッセージ
  • 広告や販売、詐欺の正当化などを目的としたソーシャルメディアメッセージ
  • 説得力のあるフェイクニュース

レポートには、AIによって作成されたこれらのコンテンツの具体的な例が多数掲載されている。率直に言って、多くの例が信頼に足る内容に見えてしまうものであり、サイバー犯罪に転用できるレベルに達していると言える。研究者は、もし言語モデルの学習データにサイバー犯罪につながるようなコンテンツが含まれていなかったとしても、そのモデルを悪用してサイバー犯罪に利用可能なコンテンツを作成することは可能と結論づけている。

この問題を解消するには、AIによって書かれた悪意のあるコンテンツを特定できるメカニズムが必要になる。ただし、今後“正当なコンテンツ”を作成するためにAIがますます活用されるようになることを考えれば、AIによって作成されたか否かを特定するだけでは不十分とも指摘されている。そのため、文章に対して懐疑的に接する人間の感性が現時点では極めて重要とのことだ。