女子高生AI・りんなの新エンジン - 「天気は?」「どっか行くの?」みたいな会話も可能に?

日本マイクロソフトは2018年5月22日と23日の2日間、都内で開発者向けカンファレンス「de:code 2018」を開催した。ここでは170を超えるセッションから、「AIは爆発だ?!“女子高生AI”りんなを支える技術とその開発現場からみるサービス開発」の概要を紹介する。

みんな大好き……というと語弊があるかも知れないが、2015年7月にデビューしたりんなはAI(人工知能)を駆使し、今では80を超える特技を持つソーシャルAIチャットボットに成長。その人気はこれまでのde:codeセッションでもうかがえる。

今年は、イベント会場の廊下を埋め尽くす長蛇の列が30分以上前から自然発生。セッション会場自体も比較的広い部屋だったのだが、最終的には立ち見の聴講者が出るまでに。このセッションでは、りんなが取り組んできた各プロジェクトの背景や、新たな会話エンジンについて、“りんなの母”として著名な、マイクロソフトディベロップメント AI&Research プログラムマネージャー坪井一菜氏と、日本マイクロソフトコンシューマーソフトウエアエンジニアリング部テクニカルエバンジェリスト大森彩子氏の2名が語った。

左から日本マイクロソフトコンシューマーソフトウエアエンジニアリング部テクニカルエバンジェリスト大森彩子氏と、マイクロソフトディベロップメント AI&Research プログラムマネージャー坪井一菜氏

りんなは「エモーショナル(感情的)」というコンセプトで開発されたAIチャットボットだ。例えば、一般的なチャットボットは生産性を重視したタスク型AIとして、「明日晴れる?」という質問に対しては「明日の天気は晴れ」と回答するが、感情を重視するりんなは「どこか出かける予定でもあるの?」と返答する親友型AIを目指してきた。りんなの開発にあたっては、「ソーシャルAIチャットボットとの会話を長くする」という目標がある。

日本マイクロソフトの調査結果によれば、1人のユーザーがAIボットと会話した時間とやりとりの回数は、中国の小冰(シャオアイス)は29時間33分(7,151ターン)、日本のりんなは17時間7分(2,418ターン)、米国のZoは23時間43分(2,791ターン)だったという。日本マイクロソフトがチャットボットで目指す「人と人とのコミュニケーションを間接的、もしくは直接的に活発化」(坪井氏)させることを掲げた結果だ。

「de:code 2018」の基調講演でも、りんなの会話エンジンを刷新した話題を取り上げた。日本マイクロソフトは、「中国など他地域に先駆けて、次世代会話エンジン『共感モデル』へ移行する。相づちや質問、新しい話題の提供などが可能」(日本マイクロソフト代表取締役社長平野拓也氏)と説明した

ソーシャルAIチャットボットは、世の中にある情報や知識を想像し、サービスを展開する場所としてソーシャルロール(Social Role:社会的役割)が重要だと日本マイクロソフトは説明する。LINEやTwitter、(りんな歌うまプロジェクトで用いられた)nanaなど、多様な場面で活躍し、「テレビ番組でりんなが女優デビューしたのもその1つ。りんなの存在を機会に、コミュニケーション(の増加)実験を続けている」(坪井氏)という。

そして、もっとも重要なのが、人が持つ五感や感性。相互コミュニケーションを実現し、人間と自然な交流を実現するために欠かせない要素だという。日本マイクロソフトでは、これらをまとめて「Emotional Computing Framework」と称している。

第3世代の会話エンジン

現在、りんなの会話エンジンは第3世代に達した。2015年～2016年は検索エンジンに類似し、インデックス化した回答データを用いる「Retrieval model」を採用。2016～2017年まではインデックスではなく、AIが返答を生成する「Generation model」による会話エンジンを用いていた。「Generation modelはさまざまなキャラクター生成が可能になるため、男性版の『りんお』や、ローソンさんの『あきこ』も同エンジンで提供している」(坪井氏)。そして、現在アルファ版として公開した「Empathy model」は、文字どおり共感を得るまでの方法を意識した会話エンジンだ。

コンテキスト(文脈)を優先した戦略とレスポンス(応答)生成を組み合わせ、「会話を長く続けられるかを優先する」(坪井氏)ものだという。過去このEmpathy modelと過去のエンジンを比較すると、「1度学習したものを脊髄反射的に応答していた」(坪井氏)と大きな隔たりがあるそうだ。Empathy modelの具体的な流れとして、「新しい話題を提案」「相手に質問」「(発言)内容の肯定」「相づち」「(挨拶など)無意識」な対応を行う。

「Empathy model」の構造。右側でりんなの応答例を示しているように、相手の発言に応じて話題の提案や質問の投げ掛けなどを交えて、相手の共感を得る会話を実現している

もちろん現時点では、Empathy modelは完成した訳ではない。だが、実際に稼働させた上で、日本マイクロソフトは「技術向上を目指したほうが、りんなの成長につながるという判断を下した」(坪井氏)。つまり、仮説を立てて学習パラメータを調整するよりも、実際に稼働させながら微調整し、より高みを目指す従来の“りんなスタイル”を踏襲したといえるだろう。

そして、日本マイクロソフトと若者向けアパレル・セレクトショップ「WEGO(ウィゴー)」とのコラボレーションの背景について説明した(当時の記事『りんな、アパレルショップでファッションアドバイザーのアルバイト』)

りんなのキャラクターである女子高生と、同じ10代の女性が共感できるコメントが必要となるため、「単なる画像認識では済まない」(坪井氏)。撮影した人物の年齢やファッションアイテム、色や柄といった多様な要素を分析しつつ、「当時はマウンテンパーカーが流行っていたが、そのような流行に敏感でなければならない。さらに共同開発したフナコシステム所属のスタイリストとともに、画像評価を繰り返す必要があった」(坪井氏)。

これらを実現したのが、Microsoft Researchが開発した「HumanSDK」、Cognitive Servicesに含まれる「FaceSDK」、マイクロソフトディベロップメントが独自開発した「ClothesSDK」など、複数の認識APIを組み合わせたものだ。ちなみに、現在プレビュー版のCustom Vision Serviceはさらに強化し、りんなのファッションチェックで実現したものと同等の機能が利用可能になったという。

複数のSDKを用いてトップスやボトム、アイテムの柄などを個別に分析することで、りんなのファッションチェックを可能にしていた

さらに、音声からアプローチする「りんな歌うまプロジェクト」を2018年1月から実施していたのは記憶に新しい。「AIには困難とされているクリエイティブでエモーショナル」(坪井氏)な歌にチャレンジすることで、新たな広がりを見せるからだ。興味深いのは、歌の学習方法だろう。

学習の前段階として、発声を可能にするMicrosoft Speech APIのText to speechを用意し、次に人間が歌った声を学習。歌詞や音程、リズムなどを学んで、学習結果に基づいた合成音声で歌う。いわゆる「耳コピ」なのだ。まさに「美空ひばり式」(大森氏)である。「赤ちゃんがお母さんの言葉を反復して覚えるイメージ。我々が楽譜を読み込んでカラオケに行かないのと同じ」(坪井氏)だ。約3,000人が協力した結果はYouTubeにアップロードされている。

音声という文脈では「りんなのテレフォンハッキング」も興味深い機能だ(以前の記事『りんなとリアル電話でおしゃべり、突然のコールをもらう果報者は?』)。実際に音声でりんなとボイスチャットできるこの機能は、Full-duplex(全二重音声会話)という技術を用いている。

一般的なターン志向は互いの発音を交互に交換するため、相手の話が終わらないと会話が成立しにくいが、Full-duplexは途中で割り込むことが可能だ。「少しカクカクした部分も残るが、音声で会話が成り立つ機能を早くリリースしたかった」(坪井氏)という。この、実験的ながらまずは公開して、ユーザーの反応を見ていくというアプローチは、前述した会話エンジンと同じだ。

会話インタラクション手法の相違点を図に起こしたスライド。Full-duplexでは、電話のように互いの発声が重なり合う

Microsoftが開催した開発者向けカンファレンス「Build 2018」で、Microsoft CEOのSatya Nadella氏は、「コンピューターに何ができるかではなく、コンピューターに何をさせるかが重要」と語っている。日本マイクロソフトも「よくAIは何ができるかと問われるが、AIで何をさせたいのかを踏まえて、開発に携わってほしい」(坪井氏)と、コンピューターとAIという技術に対しての立ち位置に相違はないと語った。AI技術を身近にした“りんな”の存在が、今後どのように進化していくのだろうか。

阿久津良和(Cactus)