Metaがデータラベリングの新興企業であるScale AIに出資し、創業者のアレクサンドル・ワン氏がMetaに入り、マーク・ザッカーバーグCEOが進めるAI開発チームに加わります。「テックトピア:米国のテクノロジー業界の舞台裏」の過去回はこちらを参照。

Bloombergの報道によると、MetaはScale AI株を49%取得します。過半数ではないのは、テック大手の独占に対する厳しい規制当局の監視を避けるための意図的な選択と見られています。投資額の推定は143億ドル。WhatsAppに次ぐ、Meta史上2番目に大きな投資になります。同社はScale AIの価値を290億ドル以上と評価しているそうです。

縁の下の力持ち「データラベリング」

データラベリングは、何年もの間、シリコンバレーの片隅にひっそりと存在し、AIに重要だけれど華やかではない縁の下の存在であり続けました。しかし今、この日陰の分野に予想外のスポットライトが当たっています。

このニュースを知って「データラベリングって何?」と首をかしげた方もいれば、「ラベリング会社のCEOがスーパーインテリジェンス(超知能)開発チームに?」と驚いた方もいたのではないでしょうか。

  • テックトピア:米国のテクノロジー業界の舞台裏 第34回

    2016年、DeepMindがAlphaGoを公開したばかりのAI黎明期に「データこそがAIシステムの生命線」との信念からScale AIを立ち上げたアレクサンドル・ワン氏(Scale Gov AI Summitより)

データラベリングとは、画像やテキスト、動画、音声など、生の非構造化データに情報価値のあるラベルを与える作業です。AI学習で、いわばデータの下処理を担う役割を果たします。

たとえば、写真に「犬」「猫」といった分類ラベルを付けたり、テキストに「ポジティブ」「ネガティブ」といった感情表現のタグを追加したりします。こうしてラベル付けされたデータを用いることで、AIの「教師あり学習」における精度が大幅に向上するのです。

歴史を振り返ると、AIにおけるデータラベリングは、学術研究内の小規模で非公式なプロセスとして始まりました。この頃のデータラベラーは「ピザと引き換えに仕事する貧乏学生」と揶揄されていました。

その後、AI市場の形成とともに膨大なデータを処理する必要が生まれ、インド、ベネズエラ、フィリピンなど賃金を低く抑えられる国の契約労働者によってラベリングが行われるようになります。ChatGPTが注目を集め始めた際、推定時給2~3ドル程度の過酷な労働環境の問題が指摘されました。

この時の印象が根強く、今もデータラベリングを単純な仕事と見る人が少なくありません。しかし、現在のデータラベリングにはまったく異なる風が吹いています。

「推論モデル」時代、人間の“考え方”に価値がある

データラベリングにもAI支援オートメーションが導入され、以前のような人力による単純なラベル付けは不要になっています。

ただし、データラベリング自体が不要になったわけではありません。データラベラーに課される要求は、常にAIにおける次の大きなブレークスルーを予見してきました。たとえば、初期の単純な画像ラベル(猫か犬か)から始まった研究は画像解析の発展を促し、マルチモーダルAIモデル構築へとつながりました。

そして今、AIモデル開発の最前線にあるのは、答えを出す前に一連の思考を書き出す能力に焦点を当てた高度なAIモデル、いわゆる「推論」モデルです。これが人間の好みや専門家の問題解決プロセスといった抽象的な形式のデータに対する需要を生み出しています。

コーディング、科学研究、高度な問題解決といった複雑なタスクにAIが挑むには、専門家の“思考の足取り”を学ばせる必要があります。RLHF(人間のフィードバックによる強化学習)といった手法も、この考えにもとづいています。

これにより、新たに高付加価値データの労働市場が生まれました。現在、需要があるのは、コンピュータサイエンス、数学、物理学、法学などの分野のSME(Subject Matter Expert/主題専門家)です。報酬はこの専門知識を反映し、時給50ドル以上、場合によっては200ドルを超えることもあるとされ、かつての「時給3ドル」の世界とは隔世の感があります。

この新たな知的労働市場は少しずつ裾野を広げようとしています。象徴的な動きとして、昨年11月にUberがデータラベリングの新サービスを開始しました。高品質なラベル付けには、ギグワーカー市場を構築できるだけの需要があるという判断です。

AIスタックの垂直統合を狙うMeta

これまでAI業界のバリューチェーンは、ある程度分離された構造を持っていました。クラウドプロバイダー(AWS、Google Cloud)、チップメーカー(NVIDIA)、モデル開発者(OpenAI、Anthropic)、そしてデータプロバイダー(Scale AI)といった具合です。

Metaが投じたScale AIへの巨額の資金。これは単なる出資ではなく、AI開発の根幹、すなわち「データ」の供給源を掌握しようとする、AIスタックの垂直統合に向けた戦略的な一手といえます。

この手法は、産業戦略として決して目新しいものではありません。石油産業における油井や製油所の確保、あるいはコンピューティング産業の初期段階におけるチップなど、これらが圧倒的な競争優位を生んだのと同様です。

AIスタックの最も基盤となるデータ層での統合を図るMetaの動きは、まさにこの古典的な戦略をAI時代に適用したものといえるでしょう。喩えるなら、生データ(コンテンツ)は「原油」であり、それをアウトプットするクリエイターなどは「油井」、そしてデータラベリング産業は「製油所」となります。

これは、データ資産をめぐる「軍拡競争」の火蓋となる可能性があります。実際、Metaの大規模投資を受けて、OpenAIとGoogleがScale AIとの距離を置く姿勢を見せ始めています。

では、これによってMetaと競合する企業のAI開発は鈍化することになるのでしょうか?

必ずしもそうとは限りません。データラベリング市場の様相はより複雑です。Scale AIは同分野で最も知名度の高い企業ですが、現在のトップランナーは、急成長する新興企業Surge AIです。

エリート労働力を多数抱え、分野を絞った集中戦略で品質と効率を両立。投資家を頼らず黒字を達成し、設立4年目の2024年には売上10億ドルに到達したといいます。同年のScale AIの売上(推定8.7億ドル)を上回る勢いです。

  • テックトピア:米国のテクノロジー業界の舞台裏 第34回

    「自分のスケジュールで自由に働けることを重視しますか?」。数学、物理、バイオロジー、化学などの分野のエキスパートを求めるSurge AI

結局のところ、Metaの動きがもたらす最も大きな影響は、競争のルール自体を変えることかもしれません。AI開発の覇権争いは、計算資源の大きさだけを競う時代から、他社が模倣できない独自の高品質データをいかに構築するかという、「データの質」をめぐる戦略的な戦いへと深化しつつあります。これまで以上に、AIの基盤であるデータそのものへの投資と囲い込みが、業界全体の焦点となりそうです。

かつて「ピザ代稼ぎ」の学生アルバイトの仕事とされたデータラベリングが、今や博士号を持つ専門家が担う高度な知的労働へと進化しました。この劇的な変化こそ、AI業界が新たな成熟期に入ったことを象徴しているのではないでしょうか。