ChatGPTがもたらす脅威からコンテンツを守る2つの方法

The Hacker Newsは8月30日(現地時間)、「How to Prevent ChatGPT From Stealing Your Content & Traffic」において、現在、企業の収益を損なう最新のテクノロジーはChatGPTだとして、OpenAIのChatGPTからコンテンツとトラフィックを守る方法を伝えた。

The Hacker Newsによると、ChatGPTに代表される大規模言語モデル(LLM: Large Language Model)により、オンラインの脅威がさらに複雑になってきているという。1つはオンライン上の詐欺や有害な攻撃に高度なコーディングスキルが必要なくなってきているためで、優秀なAIが犯罪者の便利なツールになっていることを示している。

The Hacker Newsは、ChatGPTなどの大規模言語モデルがもたらす可能性のある脅威として、次の3つに焦点を当てている。

コンテンツの盗用により、オリジナルコンテンツの権利、検索サイトランキング、認知価値を傷つける可能性がある
ChatGPTとそのプラグインから回答を得るユーザーは、オリジナルのWebページを探したり訪れたりすることがなくなり、Webサイトやアプリのトラフィックが減少する
データの漏洩または機密データの偶発的な拡散の可能性が増している。すべての公開データが共有または再配布されることを意図しているわけではないが、スクレイピングではその違いを理解できない。これによって優位性の損失や、ブランド評価への損害などの可能性がある

The Hacker Newsはこれら脅威の影響を最も受ける業界として、次の3つを挙げている。

eコマース(通販) - 商品説明と価格モデルは重要な差別化要因である
配信、出版などのメディア - ユニークかつ創造的で面白いコンテンツそのものが盗用される
クラシファイド広告 - クリック課金(PPC: Pay per click)など広告の収益は、Webサイトのトラフィック減少によって大きな影響を受ける

これら脅威からコンテンツを守る方法として、The Hacker Newsは主に2つの対策を提示している。1つはスクレイピング(クロール)の拒否。ChatGPTはCCBotと呼ばれるクローラを使ってコンテンツの収集を行っているため、「CCBot/2.0」のユーザエージェントをブロックすることで拒否できる可能性がある。ただし、このような対策が広まると、OpenAIが対策を回避する手段に出る可能性がある。また、Googleなど他社の大規模言語モデルのクロールまで拒否すると、検索サイトランキングが下がる可能性もある。

2つ目の対策は、ChatGPTプラグインからのアクセスを拒否すること。ChatGPTは2021年時点でのデータセットで学習を行ったため、それ以降の最新の情報を提示できない(将来的にデータセットを更新して学習する可能性はある)。ChatGPTが最新の情報を扱えるようにするために、ChatGPTプラグインは外部データにアクセスする方法をChatGPTに提供する。これにより、ChatGPTは学習していない最新の情報を提供できるようになる。

これを防止するには、ChatGPTプラグインからのアクセスを拒否する必要がある。ChatGPTプラグインは「ChatGPT-User」のユーザーエージェントでリクエストを行うため、これをブロックすることで拒否できる可能性がある。ただし、ほかのユーザエージェントを仲介させることでChatGPTプラグインの存在を隠すことができる。

なお、The Hacker Newsは「これら2つの対策はいずれも不完全であり、実用的ではない」とし、より確実な方法として、データの使用そのもので収益化する方法を見つけるか、または行動分析などの高度な検出技術でクローラやChatGPTプラグインのアクセスを検出して拒否するソリューションの導入を提案している。