奈良先端科学技術大学院大学(NAIST)と大阪大学(阪大)の両者は12月12日、ヒトの感情がどのように形成され、ヒトの内部で意味づけられるのかという問いに対し、視覚情報、生理反応、言語情報などの多様な様式の情報を統合的に学習して潜在的な概念を推測する「Multi-layered Multimodal Latent Dirichlet Allocation」(mMLDA)を用いて、個人の経験に基づいて感情概念を形成・推定する計算モデルを構築したと共同で発表した。
また、構築したmMLDAモデルは、実験参加者が画像を見た際に報告した感情評価と約75%の精度で一致する感情カテゴリを形成できることが確認されたことも併せて発表された。
同成果は、NAIST 先端科学技術研究科 情報科学領域の日永田智絵助教、阪大大学院 基礎工学研究科の弦牧和輝大学院生(研究当時)、同・宮澤和貴助教らの共同研究チームによるもの。詳細は、IEEEが刊行するヒトの感情やそれに伴う現象の認識・解釈・シミュレートできるシステムを扱う学術誌「IEEE Transactions on Affective Computing」に掲載された。
ヒトの情動を理解するAIがついに誕生するかも?
ヒトの感情の研究において近年注目されているのが、「構成主義的情動/感情理論」だ。この理論では、感情は生得的に決まっているものではなく、内受容感覚(心拍数の変動や筋肉の緊張と弛緩など、自身の身体感覚)や、外界から得られる知覚(五感)情報、そして言語や文化などの知識構造が後天的に統合されることで、ヒトの内部で「概念」として構築されると説明する。さらに、この理論では、感情は固定的なラベルではなく、経験をもとに形成・更新され続ける柔軟な知識体系であると位置づけている。
一方で、感情がどのような情報処理過程を経て概念として形成されるのかという問いについては、理論的枠組みが存在しているものの、その計算過程の検証は十分に行われてこなかったとする。そこで研究チームは今回、この「ヒトの感情がどのように生まれ、概念化されるのか」という未解明領域に対し、工学的・構成論的アプローチを用いて、具体的な計算プロセスとして感情概念形成を表現することを目的とした研究を行ったという。
今回の研究では、29名の実験参加者に対し、まず心理評価研究で国際的に広く用いられている感情喚起画像セット「International Affective Picture System」に収録された60枚の画像が提示された。そして、その60枚の画像から抽出した視覚特徴量、刺激提示中の生理反応(皮膚電気活動および心拍変動)、そして被験者が自由に入力した言語データが収集された。これらはそれぞれ、外界知覚情報(視覚)、内受容情報(生理)、意味情報(言語)を反映する異なる情報源であり、ヒトが感情を判断する際に依拠すると考えられている主要要素だ。
そして、これらの情報をmMLDAモデルに学習させた結果、モデル内部に形成された感情概念が、被験者自身による主観評価(快-不快・覚醒レベルに基づく感情カテゴリ)と約75%の精度で一致したとする。この一致率は、偶然的分類(チャンスレベル)を大きく上回っており、モデルが有意に主観評価に類似した感情概念を形成したことを示した。
-

モデルの出力結果。(左)ランド指数に基づく主観評価との一致率の評価。(右)モデルの感情概念を次元削減アルゴリズム「t-distributed Stochastic Neighbor Embedding」により二次元に可視化したもの(出所:共同プレスリリースPDF)
さらにmMLDAモデルは、与えられた情報から未観測の情報を推定することも可能だ。例えば、画像や言語から生理反応を推定したり、生理反応から使用される感情語を推測したりするなど、ヒトの認知特性に近い推論機能を示すことが確認された。このことは、感情が単一の要因ではなく、複数の知覚、内受容、言語情報を統合することで形成されるという理論的仮説と整合しているとする。
mMLDAモデルは、単に感情を識別する技術ではなく、ヒトが世界をどのように理解し、意味づけ、感情を経験しているのかという仕組みを理解するためのツールとして設計されている。そのため今後は、対話型ロボットや生活支援AI、医療分野における心理支援などに応用することで、ヒトの行動や発話の背後にある情緒・意図を推定し、より自然で文脈依存型のコミュニケーションを可能とする技術基盤につながることが期待されるとした。
また、言語化が困難な情動体験を外部から推定できる特性を活かし、発達障害支援、認知症ケア、セルフメンタルヘルスアセスメント、教育現場における情緒理解、そしてストレス検知や心理状態モニタリングといった臨床応用への可能性が広がるとする。
研究チームは、将来的には今回の視覚情報に加え、触覚、嗅覚、音響情報、社会文脈、文化背景などを統合し、より高度な情動モデルへ発展させることで、「ヒトの感情を理解するAI」の実現を目指すとしている。
