2026年3月25日、Google DeepMindが「Lyria 3 Pro」を公開しました。30秒クリップ生成が中心だったLyria 3の登場から1か月ちょっとでのお目見えです。そして、翌26日には音楽生成AIの定番「Suno」も最新モデルとなるv5.5をリリースしています。すでに先行してUdioも独自の編集機能で制作体験を磨き続けており、テキストを打ち込むだけで高音質な楽曲が数十秒で生まれる環境が整いました。→過去の「柳谷智宣のAIトレンドインサイト」の回はこちらを参照。
今回は、最新の音楽生成AIの定番サービスやプロンプトの作り方について解説します。実際に楽曲を生成してみたので、聴いてみてください。
各サービスの設計思想と得意分野から見える使い分け
テキストから音楽を作り出すという根本的な技術は共通していますが、3つのサービスが想定しているユーザー層とプロダクトの設計思想は異なります。
Sunoは誰でも手軽に曲が作れる体験を最優先に掲げる市場の最大手です。2023年12月の登場以来、またたく間にユーザー数を伸ばし続け、有料会員はすでに200万人を突破しました。2025年11月にはシリーズCで2億5000万ドルの資金調達を完了し、評価額は24.5億ドル規模になっています。
登場したばかりの最新バージョンのv5.5では、自分の声を録音してAIに歌わせるVoices機能や、自分が過去に作ったオリジナル楽曲を6曲以上読み込ませてAIのモデルをパーソナライズするCustom Models機能が追加されました。楽曲の長さは通常で約4分から5分ほどですが、Extend機能を使えば8分以上の長尺に延長することも可能です。
料金プランは3段階用意されており、1日50クレジットが付与されて約10曲作れるFreeプラン、月額10ドルで約500曲作れるProプラン、月額30ドルで約2000曲作れるPremierプランに分かれています。なお、作成した楽曲を商用目的で利用するにはProプラン以上の契約が必須となります。今回は、Proプランを利用しました。
Udioは元Google DeepMindの研究者らが2024年4月に立ち上げたプラットフォームで、音楽プロデューサー向けの高度な編集機能が強みです。生成された楽曲の特定の小節だけを指定して別の楽器やメロディに再生成するインペインティング機能や、タイムライン上で細かく楽曲を切り貼りするSessions機能などを備え、既存の音楽制作ソフトに近い感覚で作り込みできます。
また、48kHzステレオの高音質出力に対応しており、オーケストラや映画音楽のような空間的な広がりを求めるジャンルで高い評価を得ています。なお、著作権に関する一部の訴訟や和解の過程で機能制限がかかっており、現在は楽曲のダウンロードができなくなっています。
そのため、Udio上での再生やURLによる共有が中心になります。1曲の生成には2~4クレジットが消費され、無料アカウントは1日10クレジットに加えて月100クレジットまで利用でき、Standardは月額10ドルで月2400クレジット、Proは月額30ドルで月6000クレジットまで使えます。
Lyria 3 Proは、Google DeepMindが開発している音楽生成AI。もっとも手軽な使い方は、Geminiアプリのチャット画面から「こんな曲を作って」と日本語で指示する方法で、30秒のクリップなら無料で生成できます。最長約3分のトラックを作るにはGoogle AIの有料プランへの加入が必要です。生成した楽曲はMP3またはカバー画像付き動画(MP4)でダウンロードできます。
出力は48kHzステレオで、テキストによる指示だけでなく、画像を読み込ませてビジュアルのムードを音楽に変換するマルチモーダル入力にも対応しているのが特徴です。ライセンス処理済みのデータのみで学習したと公式に発表しており、すべての出力にはSynthIDと呼ばれる人間の耳には聞こえない電子透かしが自動的に刻み込まれます。
さらに、Gemini APIやVertex AIを通じたAPI従量課金(1曲約0.08ドル)にも対応しているため、ゲームや動画編集アプリに音楽生成機能を組み込みたい開発者にとっても有力な選択肢になります。
狙い通りの曲に近づけるプロンプト設計の基本
音楽生成AIを使いこなすうえで最初に直面する壁が、どのような言葉を入力すれば思い通りの曲になるのか、というプロンプト設計の課題です。画像生成AIと同じように、ただ漠然といい感じのポップスを作ってと指示を出しても、頭の中に思い描いた通りの結果が返ってくるとは限りません。
覚えておくと便利なコツがいくつかあります。まずはジャンルやサブジャンルを明確に指定することからスタートしましょう。J-POPやシティポップ、あるいはプログレッシブジャズフュージョンといった具体的な音楽のカテゴリーを言葉にします。次にテンポを表すBPMを数値で指定します。120や140といった数字をプロンプトに加えるだけで、楽曲全体の安定感が高まります。
ボーカルの性別や声の質感を伝えることも効果があり、透明感のある女性ボーカルやハスキーな男性ボーカルといった言葉を添えてみてください。さらに、どのような楽器を使いたいのかを具体的に列挙するアプローチも有効です。
シンセポップ、エレキギターのカッティング、タイトなキックといった具合に音色を並べておくことで、AIが楽器の選択で迷う確率を下げられます。もちろん、わからないならAIにまかせてもOKです。
日本語の歌詞を含む楽曲を作りたい場合は、ツールごとの特性に合わせた工夫が求められます。Sunoはv5.5へのアップデートで日本語の発音精度が大幅に向上しており、漢字が混ざった歌詞をそのまま入力しても、かなり自然なイントネーションで歌い上げてくれます。
一方、Udioは漢字の読み間違いや、メロディに乗せずに歌詞をただ朗読してしまう現象がまだ起きやすいため、歌詞のテキストをあらかじめひらがなやローマ字に変換して入力したほうが挙動は安定します。
Lyria 3 Proは、公式に8言語に対応しており、日本語もサポートされています。歌詞のニュアンスをより細かくコントロールしたい場合は、イントロやサビを示す構造タグを組み合わせて、セクションごとに歌詞と演奏の指示を分けて記述するテクニックが有効です。
そして、何をプロンプトに入れないかを見極めるのも重要です。指示を詰め込みすぎるとAIが情報の優先順位をつけられなくなり、結果として中途半端な楽曲が出力されることが少なくありません。
最初はジャンル、テンポ、ボーカル、主要な楽器という4つの要素だけで土台となる曲を生成し、そこから物足りない部分を少しずつ付け足していくと、望んでいる楽曲を生成できる可能性が高まります。
同一プロンプトで見えた3サービスの強みと弱み
今回は、Suno v5.5、Udio、そしてLyria 3 Proに対して同じプロンプトを入力し、どのような楽曲が生成されるのかを検証してみました。テストは4パターンで、歌詞を指定しないJ-POP、生成AIで歌詞を書いてから作るロック、条件てんこ盛りのEDM、そしてゲーム用のインストゥルメンタルBGMです。ちなみに、SunoとLyria 3 ProはYouTubeで公開していますが、Udioはリンクでの共有となります。
最初のテストでは、あえて歌詞をまったく指定せずにどんな曲ができるかを試しました。プロンプトは「日本語のJ-POP、テーマは雨上がりの帰り道、透明感のある女性ボーカル、160 BPM、シンセポップとギター、イントロは短くしてすぐサビから始める」とだけ入力しています。歌詞の内容には一切触れていません。
3サービスとも、テーマの「雨上がりの帰り道」を汲み取った歌詞を自動で生成し、メロディに乗せて歌い上げてくれました。
Sunoはブラウザ上のCreateボタンを押すだけで数十秒のうちに「雨上がりスキップ」という曲名で2パターンが生成しました。
サビ始まりの指示にもしっかり応え、冒頭からキャッチーなメロディが飛び込んできます。日本語の発音も非常に自然です。歌詞付きの動画をダウンロードできるのも、SNSでシェアしやすくて○。
ただし、ピッチ補正がやや過剰で、ボーカルがツルツルとした質感になりがちです。これは、プロンプトに「raw vocal」を加えると改善することがあります。
Udioは一度に「Kawaranai Kimochi」というタイトルで2バージョン生成してくれましたが、どちらも2分10秒程度だったので「Extend」をクリックして、後ろに30秒ほど追加しました。この時も2バージョン生成するので、最終的に4曲完成しました。
楽器の分離感はSunoよりクリアに聞こえる場面が多く、いい感じです。日本語のクオリティも十分に高いです。さらに、Extendで延長することもできますし、インペインティング機能でサビのボーカルだけを差し替えるといった局所的な修正もできます。
生成された歌詞はローマ字表記で、[Chorus]や[Bridge]といった構造タグも含まれており、セクション構成まで反映されていました。
Lyria 3 ProはGeminiアプリのチャット欄にそのままプロンプトを入力し、タイトルが「透明な帰り道」という曲を生成しました。ボーカルの日本語精度はSunoにやや劣りますが、BGM用途には十分な品質です。
ただし自動生成された歌詞のクオリティにはバラつきがあり、単語によっては読み方を間違えることもあります。とはいえ、歌詞にこだわらずBGM感覚でサクッと1曲作りたい場合は、この方法で十分ということも多いでしょう。
2曲目
2曲目では、先にChatGPTやClaudeなどのテキスト生成AIで歌詞を作り、それを各サービスに貼り付けて楽曲を生成するという手順を踏みました。
プロンプトは「日本語ロック、テーマは夏の夜のドライブ、エネルギッシュな男性ボーカル、170 BPM、歪んだエレキギター・ドライブ感のあるベース・タイトなドラム、イントロなしでいきなりボーカルから入る」とし、別途用意した歌詞を添えています。
ここで重要になるのが、歌詞の書き方です。読みが複数ある漢字は意図しない発音になることがあります。たとえば「今日」を「きょう」と歌ってほしいのに「こんにち」と読まれるケースです。対策として、読み間違えそうな漢字だけをひらがなに開く方法が手軽です。もちろん、すべてをひらがなにしたり、ローマ字にしてもOKです。
今回、以下のプロンプトをChatGPTに入れたところ「さらにSuno向けに『Verse / Pre-Chorus / Chorus』表記つきにもできます」と言ってきたので、お願いしてみました。
-
プロンプト
以下の指示で生成する楽曲の歌詞を生成してください。曲の長さは3分間で、歌詞の日本語で読むのが難しい漢字は()でふりがなを入れてください。歌詞に「スターシップ」「ワープ」を入れてください。
日本語ロック、テーマは夏の夜のドライブ、エネルギッシュな男性ボーカル、170 BPM、歪んだエレキギター・ドライブ感のあるベース・タイトなドラム、イントロなしでいきなりボーカルから入る
Sunoでは歌詞を「Lyrics」に入力し、曲名が「ネオン・ワープ」という曲を生成しました。漢字交じりの歌詞でもほぼ正確に読み上げてくれました。ふりがなを振った箇所はすべて指示どおりの読みで歌っており、日本語対応力の高さがうかがえます。
ボーカルのエネルギー感も十分で、170 BPMのドライブ感あるロックとしてしっかり成立しています。これは他もそうだったのですが、イントロなしで入るのは難しかったようです。
Udioは「Write Your Lyrics」を「Custom」にして、「Lyric Editor」に歌詞を入力します。しかし、きちんと読まなかったり、朗読調になってしまったりと、なかなかうまくいきませんでした。
そこで、Udioで歌詞付き楽曲を生成する際に限っては「Japanese vocals, J-Pop, Enunciated vocals」というプロンプトを追加し、「Advanced Controls」で「Clarity(声の大きさ)」を2倍に、「Generation Quality(生成品質)」を一段階上げて「Ultra」にしました。それで生成した「すたーしっぷ」は、日本語の発音に関してはSunoよりも見劣りしてしまいます。
Lyria 3 Proは「真夏のアクセル」というトラックを生成しました。歌詞とプロンプトをまとめて入力する形式のため、歌詞のどの部分をサビに割り当てるかといった細かい構成の制御がやや難しい印象です。
本来は1回だけ歌う想定のフレーズを繰り返すなど、意図しない重複と見られる箇所があり、ボーカルの日本語発音もSunoに比べると硬さが残ります。しかし、バックの演奏はタイトにまとまっており、ギターとベースの分離感も良好でした。
3曲目
3曲目は、プロンプトの細かい指定をAIがどこまで拾えるかを試すテストです。かなり注文を詰め込んでみました。
-
プロンプト
超ハイテンションなEDM、BPM 150、女性ボーカル、歌詞は英語、冒頭4小節はピアノだけの静かなイントロ、そこからドロップで一気にベースが入る、サビの後にダブステップ風のブレイクダウンを挟む、途中で一瞬だけ無音を入れてから再びドロップ、最後はリバーブで余韻を残してフェードアウト
Sunoは「Gravity Glitch」というタイトルの曲を生成しました。ドロップの勢いやメロディのキャッチーさは申し分ありませんが、歌詞は英語を指定したにもかかわらず日本語になっていました。とはいえ、全体の構成を自動でうまくまとめており、クオリティは上々です。
[Udioはブレイクダウンの再現性が高く、一瞬の無音からの再ドロップという緩急の表現も比較的忠実に拾い、「Put Your Hands Up High」というトラックを生成しました。インペインティングで細部を詰められる点も含めて、細かい注文が多いほどUdioの編集力が生きてきます。
Lyria 3 Proはタイトルが「Horizon of the night」という曲を生成しました。ピアノのイントロからドロップへの切り替わりや、ブレイクダウンのタイミングをおおむね正確に拾ってくれました。
歌詞も英語です。無音の挿入はごく短い間が空く程度にとどまりましたが、フェードアウトの処理は3サービスのなかで最も滑らかです。一発でこのクオリティを出せるのはすごいです。
4曲目
最後はインストゥルメンタルのゲームBGMです。ボーカルなしの純粋な楽器演奏だけで世界観を表現できるかどうかは、AIの音色選択と構成力が問われるテストになります。楽器の種類が多く、展開の指示も具体的なので、それぞれどこまで忠実に再現するかに注目です。
-
プロンプト
ゲームBGM、シネマティックと和風ファンタジーの融合、95 BPM、尺八・琴・太鼓・ストリングス・低音シンセ、静かな導入から中盤で緊張感が増し、最後は冒頭のループに戻る構成
Sunoは「月影ノ譜」というタイトルのトラックを生成しました。和太鼓とストリングスが交差する迫力のあるトラックを一瞬で出力し、指定した楽器の音色もほぼ網羅されています。映画音楽にも使えそうなクオリティです。
Udioはゲーム音楽としては文句なしですが、シンセサイザーが強く、和風テイストはほとんどありませんでした。これは何度生成しても同じだったので、本気で狙うならプロンプトの修正が必要でしょう。とはいえ、迫力たっぷりで、中盤で盛り上がるという指示は的確に反映されています。
Lyria 3 Proは「Shrine of the morning mist」を生成し、もっとも和風テイストを出していました。和楽器の音色のリアリティが感じられ、シネマティックな曲調にマッチしています。ゆったりとしたテンポながら、指示通りに盛り上げてくれて、素晴らしい出来です。
なお、今回の検証では、いずれのサービスでも自然なループにはならず、フェードアウトで収束しました。
著作権と商用利用で押さえるべき注意点
音楽生成AIが急激な進化を遂げる裏側で、著作権をめぐる法的なルール作りもかつてないスピードで進んでいます。米国著作権局の最新の報告書では、ユーザーがAIにプロンプトを入力して全自動で出力させただけの純粋な生成物には、著作権による保護を与えないという原則が示されました。
一方で、AIが出力した音声を素材として扱い、人間がそこに新たなボーカルを録音して重ねたり、個別の音符レベルで複雑なアレンジメントを施したりと、意味のある創造的な介入を行った場合には、その人間の作業部分に対して著作権が認められる道が残されています。
各プラットフォームがタイムライン編集やインペインティング機能を強化している背景には、ユーザーが生成物に創作的関与を加えやすくする意図もあると考えられます。
著作権の侵害リスクを抑えたいのであれば、ライセンス処理が完了した学習データのみを使用しているLyria 3 Proが有力な候補となるでしょう。
SNSや動画用のBGMを手軽にたくさん作りたい場合は、直感的な操作とコミュニティの規模で勝るSunoがぴったりです。
そして、生成された音源を土台にして細部まで徹底的に作り込みたいプロフェッショナルには、Udioの高度な編集機能が強力な武器になるでしょう。
洋楽・邦楽問わず、自分好みの楽曲を手軽に生成できるのは、とても楽しい体験です。今回紹介したサービスはどれもクオリティが高いので、ぜひ触ってみてください。



