「昨日遊園地に行ったんだけど、すごいやばかった」

――この発言(テキスト)に込められた感情は「喜び」でしょうか、「怒り」でしょうか? 今回は、人の感情を推定するAI技術「感情認識」についてお話しします。

入力テキストがどの感情に当てはまるかを分類

2018年12月、ユーザーローカルは、テキストからユーザー感情を自動判定する「ユーザーローカル感情認識AI」を開発したと発表しました。このような感情を自動で推定する技術は「感情認識」や「感情判定」、「感情推定」などと呼ばれ、AIの普及と共に頻繁に耳にするようになってきました。

ユーザーローカルが開発した感情認識AIは、テキストから感情を推定する技術で、ディープラーニングを用いることにより、テキストの持つ細かなニュアンスをこれまでよりもうまく捉えられるようになった、とのことです。

感情認識は、本連載でも何度かお伝えした「分類」という考え方と非常に相性が良い課題の1つです。入力されたテキストをあらかじめ設定しておいた感情のいずれかに分類する、と考えるとわかりやすいでしょう。

前述のニュースによると、発表されたAIでは入力されたテキストを「喜び」「好き」「悲しみ」「恐れ」「怒り」の5つの感情に分類しているそうなので、次のようなイメージになります。

入力された文章が「5つの感情のそれぞれに分類される可能性(確率)」を出力

このようなAIを開発するためにコンピュータに学習させるデータは、テキストに「喜び」「好き」「悲しみ」「恐れ」「怒り」のいずれかが”正解”として付与されたものになります。次の表のようなイメージです。

テキスト 感情
ハンバーグ美味しそうだから早く食べたい! 喜び
毎日ハンバーグを食べてるの。 好き
何度も怒られてしょんぼりだよ。 悲しみ
大きな声出したら怖いよ。 恐れ
そんなこと言う人は大っ嫌い! 怒り

こうしたデータを大量に集めてコンピュータに学習させれば、入力したテキストを5つの感情に分類できるAIを開発することが可能です。もちろん、感情認識は必ずこの5つの感情に分類しなければならないわけではありません。感情認識AIを開発する際は、そもそも「どんな感情に分類したいのか」を検討し、それに合ったデータを準備することが必要になります。

例えば、ポジティブな感情とネガティブな感情の2種類に分類できれば良いのであれば、テキストにその2つのいずれかを付与したデータを準備して学習すれば良いでしょう。

テキスト 感情
ハンバーグ美味しそうだから早く食べたい! ポジティブ
毎日ハンバーグを食べてるの。 ポジティブ
何度も怒られてしょんぼりだよ。 ネガティブ
大きな声出したら怖いよ。 ネガティブ
そんなこと言う人は大っ嫌い! ネガティブ

さらに、感情を含んでいないような文章も入力される可能性があるのならば、「感情なし」のカテゴリーも加えて、6つの分類にする方法が考えられます。

テキスト 感情
ハンバーグ美味しそうだから早く食べたい! 喜び
毎日ハンバーグを食べてるの。 好き
何度も怒られてしょんぼりだよ。 悲しみ
大きな声出したら怖いよ。 恐れ
そんなこと言う人は大っ嫌い! 怒り
毎日7時にご飯を食べる。 感情なし

感情を読み取れるデータはテキストだけではない

「このやり方で感情を判定できるな」と思われたかもしれません。確かに、テキストベースで分類するのは1つの判定方法です。しかし、人の感情が表れるのはテキスト(喋った内容)だけではありません。声色や表情などにも表れることは多いはずです。

実は、感情認識AIは必ずしもテキストから感情認識をするわけではなく、音や画像を基にすることもあります。感情認識という言葉を目にした際は、まず何を解析して感情認識しているのかを明確にしましょう。

例えば、Aさんが「昨日遊園地に行ったんだけど、すごいやばかった」と発言したとします。このときのAさんの感情を推定しようと思った場合、次の3つの切り口で感情認識が可能です。

感情認識 感情を推定するために使用する情報
テキストを解析する感情認識 喋った内容のテキストデータ
声(音)を解析する感情認識 喋っている声の音声データ
顔(画像)を解析する感情認識 喋っているときの顔(表情)の画像データ

3つの切り口で行う感情認識

「昨日遊園地に行ったんだけど、すごいやばかった」というテキストを解析した場合に「喜び」という感情が推定されたとしても、声が力んでいたり、怒りの抑揚が含まれていたりする場合は、声を解析する感情認識では「怒り」と判定されるかもしれません。また、Aさんの表情が悲しそうだったのであれば、顔を解析する感情認識は「悲しみ」と判定するでしょう。

このように、同じ発話内容でも、何を解析するかによって感情認識結果は異なることがあります。つまり、本当の意味で感情認識を行うためには、テキストや声音、表情など、さまざまな情報を複合的に判定する必要があるわけです。しかし、それには感情を推定したい人に対してマイクやカメラを付けておく必要があり、あまり現実的ではありません。

現在、感情認識がよく活用されているのは、ECサイトなどでユーザーが書いた商品レビューを分析するようなシーンです。レビュー(テキスト)を分析し、感情認識することで、その商品に対してユーザーがどんな感情を抱いているかを迅速に解析することができます。この場合は、音声情報も顔(画像)の情報もありませんから、テキストのみから感情認識することになります。

一方、コールセンターにかかってくる電話からユーザーの感情を認識するのであれば、テキストと音声の両方から解析することができるでしょう。

感情認識と一言で言っても、そもそも何種類の感情に分類するのか、どんな情報を使って感情を推定するのか、などによって結果は異なります。また、課題が異なれば、使用する感情認識AIも異なる可能性が高くなります。自身の課題にはどんな感情認識AIがフィットしそうか、ぜひ一度考えてみてください。

著者紹介


株式会社NTTドコモ
R&Dイノベーション本部 サービスイノベーション部
大西可奈子

2012年お茶の水女子大学大学院博士後期課程修了。博士(理学)。同年、NTTドコモに入社。2016年から国立研究開発法人 情報通信研究機構 研究員(出向)。2018年より現職。一貫して自然言語処理、特に対話に関する研究開発に従事。人工知能(主に対話技術)に関する講演や記事執筆も行う。
著書に『いちばんやさしいAI〈人工知能〉超入門』(マイナビ出版)。
公式サイト:「AI研究家 大西可奈子のお仕事情報
twitter:@WHotChocolate