昨年に生成AIが注目を集めるようになってから、情報の正確性、AIに仕事を奪われる可能性、規制や法整備といった議論が交わされてきたが、最近すっかり様変わりしてしまった。今は、数週間前まで一般的にはほとんど知られていなかった「データスクレイピング」の話題ばかりだ。きっかけは公共のWebのサイロ化である。

例えば、6月末から一時的にTwitterが投稿の閲覧に制限を設けた。アカウントにログインしていない状態ではコンテンツが表示されない。データスクレイピングをあぶり出すための一時的な制限だったが、悪質の業者が対策できないように事前告知なしで実施したため、突然ツイートにアクセスできなくなったことにネットユーザーから猛烈なブーイングの声が上がった。

同じ時期に、掲示板型ソーシャルサイトのRedditがAPIリクエストに制限を設けて有料化に踏み切り、サードパーティーアプリの開発者やサブレディットのモデレータから猛烈な反発を受けた。Redditはここ数年、米国でTwitter以上にネットユーザーに支持されており、特に若い層のユーザーを集めたコミュニティを形成していただけに、裏切られたような思いの失望感がユーザーに広がってReddit離れの動きが加速した。RedditはIPO(新規株式公開)を目指しており、有料化を進めている理由はいくつかあるが、データスクレイピング対策も大きな理由の一つと見られている。

  • Redditクライアントアプリとして人気だった「Apollo」、API有料化でサービス提供を終了

生成AIにおけるデータスクレイピングとは、インターネットから大量の情報やデータを収集し、その収集したデータをAIの学習データとして使用することを指す。膨大なデータをスクレイピングするほどに、ChatGPTのような生成AIが言語を理解して人のように自然にレスポンスできるようにする秘伝のタレ(大規模言語モデル:LLM)が熟成される。

この記事は
Members+会員の方のみ御覧いただけます

ログイン/無料会員登録

会員サービスの詳細はこちら