AIの利用が進むにつれてトレーニングデータにおける著作権問題が大きくなっている。そんな中、OpenAIがYouTubeの動画をトレーニングデータとして利用していたと、米メディアが暴いている。

YouTubeコンテンツを取り込むため、音声テキストを変換する「Whisper」を構築

2021年後半、大量のデータをトレーニングのために必要としていたOpenAIが、GithubのコードやQuizletのコンテンツなど、インターネット上にある英語のテキストをかき集めた後に、YouTube上のコンテンツデータの取り込みを進める様子が描かれている。

当時、トレーニングしていたのは同社が2023年に公開した「GPT-4」だ。YouTubeのコンテンツを取り込むため、OpenAIの研究者は音声テキストを変換する「Whisper」を構築し、YouTube動画のテキスト化を進めた。

一部の社員からは、そのような行為はYouTubeの規約に反するのではと懸念も出ていたという。最終的にOpenAIは100万時間以上のYouTube動画のテキスト化を行った、と情報筋の話を紹介している。チームの中には、OpenAIのプレジデントを務めるGreg Brockman氏も含まれていたという。New York Times紙が4月6日付で報じている。

New York Timesの記事が公開される2日前の4月4日、YouTube CEOのNeal Mohan氏はBloombergのインタビューに応じて、動画生成AIモデル「Sora」のトレーニングに使われていれば規約に反するとの見解を示していた。

OpenAIの広報担当はThe Vergeに対して「世界の理解を助け、世界的な研究競争力を維持するために、モデルごとに独自のデータセットをキュレーションしている。一般公開されているデータ、提携を通じた非公開データを含む多くの情報源を利用している」と回答したという。