シリコンバレー101(953) アリアナが「Kill Bill」をカバー!? 音楽業界が恐れるリアルなAI音声合成

今年に入ってYouTubeやTwitterで、存在を聞いたことがないカバー曲が共有されている。例えば、アリアナ・グランデが歌うSZAの「Kill Bill」である。これはアリアナ・グランデが提供しているのではなく、アリアナによるカバーでもない。AI音声合成「Diff-SVC」を用いて生成されたものだ。Diff-SVCでは、比較的少ない音声データからその特徴をつかんだ音声を作成できる。「誰でも簡単」と言えるほどではないものの、オーディオエンジニアリングの知識や経験を持たない人でもリアルな音声合成を可能にする。

そうしたAI音声合成によるカバー曲の増加のきっかけは、デンマーク在住の19歳が1月に作成した「Ariana Grande AI」と見られている。彼曰く、騒ぎを起こしたり、ひと儲けを企んだりしたというわけではなく、Diff-SVCで存在しないカバー曲を作れるかどうかという単純な興味が動機だった。アリアナはYouTubeでアカペラ曲を公開していたので音声データを集めやすかった。さらに他の音源、音に深みを持たせるためにDolby Atmosの音源も使って、Diff-SVCに読み込ませる細かなオーディオファイルを用意し、アリアナのDiff-SVCモデルを作成した。

そうして完成したDiff-SVCモデルによる「Motivation」や「Bring Me to Life」からは、アリアナの独特の歌唱スタイルが感じられる。それらをYouTubeで公開すると、コメント欄に「この曲のカバーも作ってほしい」というリクエストが次々に舞い込んできた。

ところが、彼のモデルを使って「Kill Bill」のAIバージョンを作ったDJが現れて事態は一変した。数百万回規模の再生によって彼のDiff-SVCモデルの存在が広く知られるようになると、アリアナのファンから怒りの声が上がり、AIツールを使って簡単にシンガーの声を再現できることにミュージシャンは衝撃を受け、そして同意なくアリアナの声を使用した彼の軽率な行動を責めた。

彼は実生活にまで影響が及ぶのを避けるために自身のことを明かしていない。一時に比べるとネット上での彼への非難は収まりつつある。だが、Diff-SVCの存在が広く知られるようになり、彼を真似て勝手にカバー曲を作る行為は増え続けている。

Diff-SVCを使ったバイラルソングが音楽産業を震撼させ、Diff-SVCコミュニティは影響を恐れてツールやモデルをネットから引き上げる事態に

これは非常に残念な状況である。

昨年末からブームのChatGPTもそうだが、技術そのものは新しくなくても、これまで研究者や専門家しか扱ってこなかった技術が誰でも「使えるツール」や「使えるサービス」として提供されるインパクトは大きい。GUI（グラフィカルユーザーインタフェース）やスマートフォンのマルチタッチインタフェースのように、すでにあった技術が社会を変えた事例もある。

自然な音声を作成できるAI音声合成技術は、医療・福祉、スマートスピーカーなどアシスタント、文字読み上げや案内・アナウンス、そしてクリエイションなど、さまざまな分野での活用が期待される。ところが、同意なく誰かの声を再現するという残念な行為の広まりで、今Diff-SVCは技術の価値ではなく、オーディオ・ディープフェイクのリスク、アーティストの声を再現することの道徳性、音楽ビジネスやアーティストへの経済的な影響などで注目を集めている。

先月初めにUniversal Musicが、音楽業界の未来のために、たとえAIの開発を阻害することになっても著作権法を守る必要があるという主旨の声明を公表した。この状況が続けば、それほど遠くない将来に法廷闘争に発展する可能性は高い。

今年1月、ChatGPTが作成したニック・ケイヴ風の歌詞を受け取ったニック・ケイヴが、自身のWebサイトで「私が知る限り、アルゴリズムに感情はない」と指摘。AI生成の歌を「人間が何であるかをグロテスクにあざ笑うもの」と酷評した

AIは音楽業界にとっても大きな可能性になり得る。気持ちをリラックスさせたり集中力を高める効果のあるBGMをAIで生成するサービス、音楽の素養が全くない人でも自分のフィーリングで曲を作れるツールなど、ここ数年で「AIと音楽の交差点」を形にした例がいくつも登場している。音楽家の仕事がAIに奪われるという指摘もあるが、少なくとも現時点でAIはヒット曲の仕組みをなぞることはできても、感動した気持ちを創作に向けることはできない。

つまり、真に新しく創造的な作品を生み出せない。例えば、対話型AIのChatGPTにフランク・オーシャンの「blonde」のレビューを書かせると、よくまとまった文章を作成してくれる。でも、それはさまざまなレビューのまとめでしかなく、今を切り取った「blonde」を聴いた感情から生まれたレビューではない。私達ライターにとって対話型AIは、アイデアを形にするための構成を考えたり、異なる表現を探したりする時、または文章の手直しに利用したりすると頼もしい相棒になる。

音楽に限らず生成AIの悪用の広がりを防ぐには、社会をポジティブに前進させることを目指して、企業やスタートアップ、投資家、規制当局が協調し、そして個人の行動も必要になる。開いてしまった「パンドラの箱」はもう元には戻らない。生成AIが身近になったことで、生成AIの倫理を形成する責任を誰もが負うことになる。

1990年代末にNapsterが登場し、音源の著作権を無視したMP3ファイルの共有が横行した際に、レコード会社とアーティスト、音楽ファンが対立する残念な状況に陥り、結果、音楽市場は2000年代後半から約10年に及ぶ壊滅的な低迷を体験した。私達は今、ストリーミングサービスで数百万曲の音楽を自由に楽しめ、音楽産業はCD全盛期に匹敵する収入を得ているが、20年前に対立ではなく新たな可能性に目を向けて協調していたらもっと早く冬の時代を抜け出せていたように思う。そして私達は同じような過ちを2010年代にソーシャルネットワーキングでも繰り返し、ソーシャルネットワーキングの負の効果を増幅させてしまった。生成AIではそうならないようにしたい。