NVIDIA、YouTubeなどから大量の動画データをスクレイピングしていた

NVIDIAがYouTubeなどの動画を、AIモデルのトレーニングデータとして大量にスクレイピングして利用していたという。

80年分の動画をダウンロードか

社内のSlackやメールでのやり取り、文書などから、NVIDIAは「Cosmos」というプロジェクトの一環として、仮想空間作成プラットフォーム「Omniverse」、自動運転システムをはじめとした開発のために、YouTubeやNetflixなどの動画をトレーニングデータとして利用していたことが、それらの情報を入手した404 Mediaが報じている。

報道によると、スタッフはYouTubeダウンローダーの「yt-dlp」を使い、IPアドレスを切り替えることでYouTubeのブロックを回避して、動画をダウンロードしていたという。

1日80年分の動画をダウンロードするために、AWS(Amazon Web Services)で20～30の仮想マシンを契約する計画についても議論していたと報じている。

コンテンツの著作権についてNVIDIAは「準拠している」と主張しているというが、内部文書からは従業員がYouTubeや研究を目的に学術界が編集したデータセットの仕様についての法的リスクについての懸念を示すと、NVIDIAのリサーチ担当バイスプレジデントでCosmosのプロジェクトリーダーを務めるMing-Yu Liu氏は「幹部の決定だ。すべてのデータについて包括的な承認を得ている」と回答していたという。