Googleが10月15日にスタートした鼻歌検索(Hum to Search)。頭のなかでメロディーが離れない、この曲なんだっけ……といったときに、鼻歌やハミング、口笛で検索できる面白い機能です。

  • フンフン……と鼻歌でくるりの「WORLD'S END SUPERNOVA」を歌ってみると、見事ヒットしました

「鼻歌検索」を使うには、モバイルデバイスの最新GoogleアプリやGoogle検索からマイクアイコンをタップし、「この曲は何?」と話しかけるか、「曲を検索」ボタンで起動します。また、Googleアシスタントに「この曲は何?」と話しかけてもOK。あとは10~15秒ほどハミングすると、検索結果が表示されます(たまにヒットしないこともあります)。

この鼻歌を検索する裏側で何が起こっているのか? 11月12日、Googleが鼻歌検索についての技術説明を行いました。

鼻歌のメロディを数列化して楽曲とマッチング

鼻歌検索では、楽曲のスタジオ音源から音色や楽器の音を排除して、機械学習モデルを使いメロディを数列化。これをデータベースとし、ユーザーが検索時に歌うメロディも数列化し、両者の数列が一致するものをデータベースから検出することで、「この曲なのでは?」と探している曲を提案します。

同じメロディから変換された数列は、近い数字で構成され、別のメロディから変換された数列は遠い数字で構成されます。数列化にあたっては音程や声質などのメロディ以外の情報が排除。メロディにあたる部分を表す数列によるマッチングのため、千差万別となる個人の歌う能力が問われないのもポイントです。

  • Google鼻歌検索の概要

  • 機械学習の活用で、メロディを数列に変換しデータベースと照合

  • 鼻歌検索を音の周波数で見た場合。左が鼻歌、右3つが実際の楽曲。周波数で見るとどれも同じに見える

  • データベースとなる音源楽曲は各国で適切にライセンスされたものを利用している。楽曲だけでなく、鼻歌についても幅広いサンプルを収集し、テストを重ねて精度を挙げていったとのこと

  • 初期バージョンでは鼻歌検索が難しく、精度を上げるため、人が歌っている音源からメロディを抽出するアプローチを実施した

機械学習モデルの開発は、Google AI チームによる楽曲認識(Music recognition)がベース。付近で流れている音楽を検出する「この曲なに?(Now Playing)」(2017年)や、検索範囲を拡大した「サウンド検索」(2018年)から技術を進化させたものといいます。

というと簡単そうにみえますが、Google シニア プロダクトマネージャーのクリシュナ クマール氏によると「相当な時間の(機械学習のための)トレーニングを行いリリースまで到達した。(これまでリリースした楽曲検索と今回の鼻歌検索では)実際の顔による顔認証と、イラストによる顔認証くらいの違いがある」という難しい技術だそうです。初期段階では(歌声検索はできても)鼻歌による検索は難しかったため、人が歌う実際の楽曲から鼻歌楽曲を生成するアプローチも実施。また鼻歌についても幅広いサンプルを収集し、テストを重ねて精度を挙げていったとのこと。

マッチングはクラウド側で実施。実際に使ってみると、鼻歌だけではうまくマッチングしないこともありましたが、歌詞をいれて歌うとマッチングの精度は上がる印象です。現在は、歌う時間が10秒から12秒ほど必要ですが、Googleでは鼻歌時間の短縮化も図りたいといいます。

鼻歌検索は現在Androidでのみ利用可能。iOSは英語のみの対応ですが、今後iOSでもリリースが予定されています。