昨年に生成AIが注目を集めるようになってから、情報の正確性、AIに仕事を奪われる可能性、規制や法整備といった議論が交わされてきたが、最近すっかり様変わりしてしまった。今は、数週間前まで一般的にはほとんど知られていなかった「データスクレイピング」の話題ばかりだ。きっかけは公共のWebのサイロ化である。
例えば、6月末から一時的にTwitterが投稿の閲覧に制限を設けた。アカウントにログインしていない状態ではコンテンツが表示されない。データスクレイピングをあぶり出すための一時的な制限だったが、悪質の業者が対策できないように事前告知なしで実施したため、突然ツイートにアクセスできなくなったことにネットユーザーから猛烈なブーイングの声が上がった。
同じ時期に、掲示板型ソーシャルサイトのRedditがAPIリクエストに制限を設けて有料化に踏み切り、サードパーティーアプリの開発者やサブレディットのモデレータから猛烈な反発を受けた。Redditはここ数年、米国でTwitter以上にネットユーザーに支持されており、特に若い層のユーザーを集めたコミュニティを形成していただけに、裏切られたような思いの失望感がユーザーに広がってReddit離れの動きが加速した。RedditはIPO(新規株式公開)を目指しており、有料化を進めている理由はいくつかあるが、データスクレイピング対策も大きな理由の一つと見られている。
生成AIにおけるデータスクレイピングとは、インターネットから大量の情報やデータを収集し、その収集したデータをAIの学習データとして使用することを指す。膨大なデータをスクレイピングするほどに、ChatGPTのような生成AIが言語を理解して人のように自然にレスポンスできるようにする秘伝のタレ(大規模言語モデル:LLM)が熟成される。
結局のところ、ChatGPT、Bard、ClaudeのようなAIチャットボットが自然なテキストを出力できているのはインターネット上の言語資源データで訓練したからであり、そしてGPT-4のような今日のLLMの規模が数万トークンに拡大するにつれてデータへの渇望がさらに高まっている。
TwitterやRedditのような、これまで広告収入に頼っていたユーザー生成コンテンツを大量に保有する企業は、AIモデルの訓練のためのデータ利用を新たな収益化につなげられる可能性がある。そこで、ベンダーはアクセスを制限してデータの使用からの収益を最大化する方法を見つけるための行動をとり始めた。しかし、それらの企業はこれまで、インターネット上で情報やリソースを共有し、誰でも自由にアクセスして利用できるコモンズを支えるサービスとして使われてきたから、突然のサイロ化にネットユーザーが戸惑っている。
学習データは誰のものか?
ここで重要なのは、Twitterなどが使いにくくなったことではない。それによって人々がデータスクレイピングという言葉やLLM開発の仕組みを知り、これまでAI倫理に関心がなかった人たちがデータスクレイピングを巡るさまざまな問題について議論を始めるきっかけになっていることだ。
先週、米国の俳優ら16万人が加入する映画俳優組合がストライキに踏み切ったことが大きなニュースになっていた。同組合によると、全米映画テレビ制作者連盟は生成AIの活用に関し、エキストラの出演者をスキャンして、1日分の出演料でその映像や肖像を管理会社が所有してその後永久に使用できるようにすることを提案したという。エキストラ俳優が報酬を得る機会を失うだけではなく、倫理的に大きな問題をはらむ提案である。
自分は俳優ではないからそんな提案とは無縁と思うかもしれないが、そうしたリスクに誰もが直面する可能性がある。現状でAIのトレーニングやAIモデルにおけるデータの使用は透明性に欠ける。個人データが使用されたかどうか、使用された場合はどのように使用され、その使用からどのような潜在的な損害が発生するのか、その損害が個人に対するものなのか、社会一般に対するものなのかを知ることは非常に困難。そして個人がその意思で学習を拒否したり、一度学習させたデータを削除させたりすることも困難である。何が起こるか判らないのが現状である。
2006年に英国の数学者クライブ・ハンビー氏は「データは新しい石油(Data is the new oil)」と表現した。残念なことに、この言葉は「油井を所有することで巨万の富を得られる」というように解釈されることが多い。データの囲い込みが激しさを増す今、まさに誤解が現実になっているような状況である。
だが、「データは新しい石油」が本当に示しているのは、石油のように精製して有用な製品やサービスに変えることで初めてデータに価値が生まれるということだ。私たちがクリックするたびに手放しているユーザーデータの多くは、それ自体にはそれほど大きな価値のあるものではない。しかし、アクセスを適切に管理して活用できるようにすることで、価値のある製品やサービスを実現できる。つまり、ユーザーデータの所有権の問題の答えは、それ自体の価値や見返りではなく、いかに管理するかにある。
Open AIが3月に公開したGPT-4に関する技術報告書には、アーキテクチャやハードウェア、データセット構築、トレーニング方法などに関する詳細が記載されていない。そうしたブラックスボックス・モデルでは、データセットがどのように作成され、どのような特徴を持ち、どのような歪みやリスクの可能性がるかを外部が知ることはできない。それは新しい技術だから管理できないのではない。
2018年の「データセットのためのデータシート(Datasheets for Datasets)」など、AI倫理の分野ではすでに何年にもわたってデータの出自、倫理、プライバシーを巡る議論が重ねられてきた。今の一般のネットユーザーを含むデータスクレイピングの議論の広がりをきっかけに、より高い透明性と説明責任を実現する方向に舵を切れるか、ユーザーデータとAIに関して私達は重要な局面を迎えている。