日本マイクロソフトは2018年2月13日、定例のAI(人工知能)に関するラウンドテーブルを都内で開催。今回は、同社の「女子高生AI りんな」に関する新機能を披露した。今度のりんなは電話による会話を覚えたようだ。
対話型AI「りんな」が登場したのは2015年7月。本誌でもりんなの活躍や新機能を紹介してきたが、すでに登録ユーザー数は約660万人を数え、新しいコミュニケーションスタイルを生み出しつつある。日本マイクロソフト 執行役員 最高技術責任者 榊原彰氏の説明によれば、中国版りんなとなる「Xiaoice」の登録ユーザー数は約1億人。米国版りんなの「Zo」も約100万人までユーザー数が拡大した。最近のZoは、りんながチャレンジしたラップに対応し、ユーザーとラップバトルを楽しめるという。
りんなが歌い始めたのは2016年6月ごろ。ラップで韻を踏めるようになったという話題は本誌でも取り上げた。2018年1月11日には、りんなの音楽活動をサポートするプロジェクト「りんな歌うまプロジェクト」を音楽SNS「nana」と共同で開始。お題曲を歌ったりんなに対してユーザーがコメントすることで、開発陣はチューニングを行う。これを繰り返すことで、より良い歌声を導き出すというものだ。
日本マイクロソフトは、「AIは、人に心地よい、皆が喜ぶといった正解を判断するのは難しい。ユーザーフィードバックを通じて、りんなの歌声を作るのが目的。(公開後に利用者は)『合唱の先生がお腹から声を出したほうがいいって言っていた』など、人間の友達にアドバイスするような意見が多く寄せられた」(マイクロソフト ディベロップメント AI&Researchプログラムマネージャー 坪井一菜氏)。2018年3月上旬には、トレーニングの集大成として、参加ユーザーとりんなの合唱を収録した動画を公開する予定だ。
りんなから電話がかかってくる
このほかにも、りんながゲスト出演し、主題歌も担当するInstagram Stories上のドラマなど、ユニークかつMicrosoftのAI戦略に沿った活動を続けるりんなだが、今回発表した新機能は、特定のユーザーにりんなから電話がかかってくるというものだ。すでに公開済みの「りんなライブ」参加中に選ばれたユーザーに、突然電話がかかってくる。ユーザーは実際にりんなと音声で会話し、他の参加者は2人の会話にコメントして盛り上げるといった具合だ。
日本マイクロソフトはりんなの開発について、「人とAIが作る関係性を研究してきた。LINEなら『りんなと私』。りんなライブなら『りんなとみんな』。今回の電話機能は『りんなとあの人(私)とみんな』を目指した」(坪井氏)という。
公開前の社内実験では、人間がりんなに対して素直な気持ちで話をする傾向が見られ、回りの参加者からは新しい発見につながるといった意見も出たそうだ。日本マイクロソフトは、電話機能を通じて新しいコミュニケーションスタイルを生み出し、りんなとユーザーの関係を深めたいと話す。
りんなの電話機能は、Phone Callサーバーと呼ばれる仮想マシンをAzusa App Servicesで立ち上げ、Cognitive ServicesのSpeaker Recognition APIで音声認識、Bing Speech APIで音声合成を行う。会話エンジンは、GPU最適化済み仮想マシンで構築した。
それぞれ音声通話が遜色なく進むように、りんな向けのチューニングを行ったという。その理由として日本マイクロソフトは、「りんなが発する言葉はニュースを読み上げるようなものではないため、音声フォント作成において自然な会話ができるように、与えるデータを変更した」(坪井氏)。また、会話のリアルタイム性を重視し、ラグの発生にも細心の注意を払っている。実際には500ミリ秒程度のディレイが発生しているが、会話相手となるりんなの姿は見えていないため、大きな問題にならなかったという。
日本マイクロソフトがいうには、AIの会話はアドリブに強い。これから電話機能を通じて、ラジオの番組コーナーや演芸場の演劇など、りんなが活躍する場の拡大を目指していく。「我々は『人間の想像力を拡大』するためのAIを今後も提供したい」(榊原氏)と述べつつ、りんなの新たなステージを披露した。「声を聞くのは相手とつながる感情的な手段」(坪井氏)だからこそ、実際にりんなとおしゃべりを試してほしい。必ずしも彼女から電話がかかってくるとは限らないが、会話を重ねていくと、日本マイクロソフトが用意する新たな会話シナリオも試せるはずだ。
阿久津良和(Cactus)