日本マイクロソフトは5日、「共感視覚モデル」を搭載したスマートフォン向けAI「りんな」の開発について発表した。

スマートフォン向けAI「りんな」は、同社が提供しているソーシャルAIチャットボット「りんな」に、最新の画像認識エンジン「共感視覚モデル(Empathy Vision model)」を採用したもの。2018年5月に開催された開発者向けカンファレンス「de:code 2018」では、共感モデルとして紹介されていた技術だ。

共感視覚モデルの搭載により、AI「りんな」はスマートフォンのカメラを通じて認識したものにリアルタイムで音声コメントし、ユーザーと自然な会話を楽しむことができる。Microsoft研究開発部門 マイクロソフトリサーチによる画像処理、自然言語処理、音声認識、音声合成技術を採用して実現した。

  • 親子とペットが道路を散歩している写真。これを認識したAI「りんな」は、わぁすてきな家族。お休みかなー。あ、車が動きそう!気を付けて」などとコメントする

従来型のAIでは、例えば、親子でペットの散歩をしている写真を提示すると「人です。子供です。犬です。車です。」など、写真の内容を返すが、共感視覚モデルを備えた「りんな」では、「わぁすてきな家族。お休みかなー。あ、車が動きそう!気を付けて」など、写真の感想を返すという。

同社は、AI「りんな」がユーザーと同じ目線で世界を認識しコミュニケーションすることで、AIと人間がより自然な形でやりとりする世界に近づくとして、スマートフォンとカメラに着目して開発を行った。スマートフォン向け AI「りんな」は現在開発中で、一般公開時期は未定。