OpenAIの動画生成AIモデル「Sora」の一般公開が待たれる中、トレーニングデータにも注目が集まっている。大手動画プラットフォームYouTubeのCEO、Neal Mohan氏は、YouTubeの動画が使われていれば「ポリシーに反する」と述べている。
2024年後半に一般公開が想定されるSora
You TubeビデオはSoraのトレーニングに使われていると思うかという質問に対し、Mohan氏は「使われているかもしれないし、使われていないかもしれないというレポートを見たが、自分は明確な情報を持っていない」と述べた。そして、もし使われていたら「ポリシーに反することになる」という。
Mohan氏によると、動画のタイトル、クリエイターの名前などのスクレイピングは許可しているが、字幕や映像データ(video bits)のダウンロードは認めておらず、それが行われた場合は利用規約の侵害にあたるのことだ。
「YouTubeは明確な利用規約を設けている。クリエイターはハードワークを重ねて作成した動画をわれわれのプラットフォーム上にアップロードしており、利用規約が守られると期待している」とMohan氏。
GoogleのAIモデル「Gemini」のトレーニングについては「利用規約やクリエイターが個別に結んでいる契約に基づいて、YouTubeコンテンツを使用している」と述べた。
Soraは2024年後半に一般公開と言われている。OpenAIはSoraのトレーニングデータについて明確にしていないが、Soraが生成するコンテンツについては、コンテンツ認証標準であるC2PA(Coalition for Content Provenance and Authenticity)のメタデータを含めるなどの安全対策を講じる予定としている。4月4日、BloombergがMohan氏へのインタビュー動画を公開した。