OpenAIの動画生成AIモデル「Sora」の一般公開が待たれる中、トレーニングデータにも注目が集まっている。大手動画プラットフォームYouTubeのCEO、Neal Mohan氏は、YouTubeの動画が使われていれば「ポリシーに反する」と述べている。

2024年後半に一般公開が想定されるSora

You TubeビデオはSoraのトレーニングに使われていると思うかという質問に対し、Mohan氏は「使われているかもしれないし、使われていないかもしれないというレポートを見たが、自分は明確な情報を持っていない」と述べた。そして、もし使われていたら「ポリシーに反することになる」という。

Mohan氏によると、動画のタイトル、クリエイターの名前などのスクレイピングは許可しているが、字幕や映像データ(video bits)のダウンロードは認めておらず、それが行われた場合は利用規約の侵害にあたるのことだ。

「YouTubeは明確な利用規約を設けている。クリエイターはハードワークを重ねて作成した動画をわれわれのプラットフォーム上にアップロードしており、利用規約が守られると期待している」とMohan氏。

GoogleのAIモデル「Gemini」のトレーニングについては「利用規約やクリエイターが個別に結んでいる契約に基づいて、YouTubeコンテンツを使用している」と述べた。

Soraは2024年後半に一般公開と言われている。OpenAIはSoraのトレーニングデータについて明確にしていないが、Soraが生成するコンテンツについては、コンテンツ認証標準であるC2PA(Coalition for Content Provenance and Authenticity)のメタデータを含めるなどの安全対策を講じる予定としている。4月4日、BloombergがMohan氏へのインタビュー動画を公開した。