米Googleは2月18日(米国時間)、「Gemini」アプリに音楽を生成できる新機能を追加した。Google DeepMindの最新の音声生成モデル「Lyria 3」を用いており、テキストで曲のイメージを指示すると、歌詞付きまたはインストの30秒トラックを生成する。

新機能はベータとして段階的に展開され、対象は18歳以上。英語、日本語など複数言語に対応し、まずデスクトップ版で提供した後、モバイルアプリにも拡大する。サブスクリプションプラン(Google AI Plus/Pro/Ultra)では利用上限が引き上がる。

Lyria 3は、Google DeepMindがこれまで培ってきた音声生成技術をさらに進化させ、従来のモデルと比較して、より現実的で、音楽的に複雑なトラックを生成できるようになったという。Geminiアプリでは、「靴下が好きになるような、コミカルなR&Bのスロージャムを作って」というように、テキストで曲のイメージを伝えるだけで30秒の高品質なトラックが生成される。主な特徴は以下の通り。

  • 歌詞の自動生成: ユーザーが歌詞を用意しなくても、プロンプトに基づいて歌詞を生成する。
  • クリエイティブ制御: 音楽のジャンルや雰囲気だけでなく、ボーカルの質、テンポ、スタイルなどをユーザーが指定し、調整できる。
  • マルチモーダル対応: テキストに加えて、アップロードされた写真や動画に基づいて、雰囲気に合う楽曲と歌詞を生成する。
  •  チャット画面上で簡単に生成できるので、曲のアイデアの試作にも適している

    チャット画面上で簡単に生成できるので、曲のアイデアの試作にも適している

生成時には、画像生成モデル「Nano Banana」によるカスタムカバーアートも自動生成される。共有リンクの作成機能も用意されており、SNSなどを通じて作成したトラックを簡単に聞いてもらえる。

AIによる音楽生成が普及する一方で、既存アーティストの権利侵害や悪用を懸念する声もある。Googleは、Lyriaを2023年に公開して以降、音楽コミュニティとの協働や「Music AI Sandbox」などの実験を通じ、著作権やパートナー合意に配慮しながら開発を進めてきた。

Lyria 3の音楽生成は「独自の表現」を目的としており、既存アーティストの模倣を意図しない設計だとしている。プロンプトに特定アーティスト名が含まれる場合、広い創作上の参考として扱い、近いスタイルやムードのトラックを生成するにとどめる。

Geminiが生成したトラックには、AI生成コンテンツを識別する電子透かし「SynthID」が埋め込まれる。また、Geminiアプリのコンテンツ判定(verification)機能が音声にも拡張された。音声ファイルをアップロードし、そのファイルにSynthIDが含まれているかを確認できる。