NVIDIA、約100万時間の音声データセット「Granary」公開。翻訳、文字起こしモデルも

米NVIDIAは8月15日（現地時間）、同社公式ブログを更新し、音声認識約650,000時間と音声翻訳に 350,000時間以上を含む約100万時間の音声データセット「Granary」を公開した。クロアチア語、エストニア語、マルタ語のようなデータ収集が困難な言語も含み、25のヨーロッパ言語で高品質な音声認識・翻訳AIの開発に役立てられるという。

NVIDIA、約100万時間の音声データセット「Granary」公開。翻訳、文字起こしモデルも

AIの開発に役立てられるラベル付き音声データセット。NVIDIAはこのラベリングをカーネギーメロン大学とブルーノケスラー財団の研究者と協力し、処理パイプラインを経由させることで自動化。音声データセットとしてはかつてない大規模さを実現したほか、人力でのラベリングでは過小評価されがちなマイナー言語を適切に評価したことで、言語の多様性をよりよく反映する包括的なモデル開発に役立てられるという。

NVIDIAはこのデータセットを用い、NVIDIA NeMoで文字起こしモデル「NVIDIA Canary-1b-v2」「NVIDIA Parakeet-tdt-0.6b-v3 」を開発。データセットやモデルはHugging Faceで公開されている。