米NVIDIA(エヌビディア)は現地時間11月25日、テキストだけで音楽や音声などサウンドのあらゆる組み合わせを作成できるという、新しい生成AIモデル「Fugatto」を発表。「世界で最も柔軟性の高いサウンドマシン」とアピールしている。

  • NVIDIA、音を生み出す生成AI「Fugatto」発表。“世界で最も柔軟性の高いサウンドマシン”

この生成AIモデルでは、テキストと音声ファイルの任意の組み合わせを使用し、プロンプトで記入された音楽や音声、サウンドの任意の組み合わせを生成・変換できるという。テキストプロンプトに基づいて音楽の断片を作成したり、既存の曲から楽器を削除または追加したり、声のアクセントや感情を変更できるという。さらに、“これまで聞いたことのないサウンド”を生成することも可能にした。

Fugattoを使うと、たとえば歌のアイデアを練るためにさまざまな声や楽器を試したり、エフェクトを追加するといったことができるという。ほかにもマーケティングへの活用方法として、広告代理店が既存のキャンペーンを複数の地域や状況に展開するために、ナレーション音声に多様なアクセントなどを適用するという使い方を提案。

音声の生成で“芸術的なコントロール”が行えるよう、ComposableARTと呼ばれる技術を盛り込んでおり、「人の発言のアクセントの重さや悲しみの度合い」を細かく制御したり、「豪雨が地域を通り抜ける音の中で、雷鳴が徐々に高まり、その後ゆっくりと遠ざかって消えていく音」のように、時間の経過とともに変化するサウンドスケープなども生成できるとのこと。

NVIDIAでは「これまでのAIモデルの中には、曲を作曲したり音声を変更したりするものもあったが、Fugattoほど多機能なモデルはない」とアピールしている。なお、Fugattoという名前は「Foundational Generative Audio Transformer Opus 1」を略したものだという。

Fugattoは、音声モデリングやオーディオボコーディング、オーディオ理解といった分野でのこれまでの取り組みを基に構築した、基盤生成Transformerモデル。フルバージョンでは25億のパラメーターを使い、32基のNVIDIA H100 TensorコアGPUを搭載した、複数台のNVIDIA DGX システムでトレーニングしている。インドやブラジル、中国、ヨルダン、韓国など、世界中のさまざまな人々の協力により、Fugattoの多アクセント・多言語機能も強化したとのこと。

同社はFugattoを紹介するブログ記事の中で、「この取り組みで最も困難だったのは、トレーニングに使用する何百万ものオーディオ サンプルを含む混合データセットを生成することだった」と振り返っており、「チームは多面的な戦略を採用してデータと指示を生成し、モデルが実行できるタスクの範囲を大幅に拡大するとともに、より正確なパフォーマンスを実現し、追加データを必要とせずに新しいタスクを実行できるようにした」とコメント。既存のデータセットを精査し、データ間の新しい関係を明らかにするといった作業も行っており、全体的な作業は1年以上かかったとのこと。