東京大学(東大)は11月19日、自然なダンス映像を視聴している参加者のfMRI脳活動データと、音楽からダンスの振り付けを生成する「クロスモーダル深層生成モデル」(EDGE)から得た深層学習モデル「トランスフォーマー」の特徴量を結び付け、ダンスが脳内でどのように表現されるのかを定量的に解明したと発表した。

  • ヒトと生成AIのダンスに対する情報処理を定量的に比較

    ヒトと生成AIのダンスに対する情報処理が、世界で初めて定量的に比較された(出所:東大プレスリリースPDF)

同成果は、東大大学院 人文社会系研究科の今水寛教授、同・若林実奈大学院生(研究当時)、名古屋工業大学大学院 工学研究科の高木優准教授、神戸大学大学院 人間発達環境学研究科の清水大地助教、産業技術総合研究所(産総研) 人間情報インタラクション研究部門の大畑龍研究員らの共同研究チームによるもの。詳細は、英科学誌「Nature」系のオンライン科学誌「Nature Communications」に掲載された。

音楽と身体運動を統合する「クロスモーダル特徴」

今回の研究では、自然視聴時のfMRI脳活動と、音楽からダンスの振り付けを生成するEDGEを統合し、ダンスが脳内でどのように表現されるのかの定量化が実現された。具体的には、14名(熟達ダンサー7名/未経験者7名)が実験に参加。各参加者は約5時間にわたり、産総研が公開している高精度かつ大規模なダンス映像データベース「AIST Dance DB」のダンス動画を視聴したという。

EDGEは、過去のモーションと音楽から次の動きを予測するトランスフォーマー(文章や音声、動きなどの時系列データの関係性を学習するための深層学習モデル)である。そして、このモデルから得られた音×動きのクロスモーダルの(異なる感覚様式にまたがる特徴)特徴を用い、全脳のボクセル(脳の三次元画像を構成する最小の立方体)単位の「エンコーディングモデル」(刺激の特徴から脳活動(fMRI信号)を予測する統計モデル)が構築され、以下の結果が得られたとした。

  • ダンス生成AIとAI内部表現に対応する脳部位

    ダンス生成AI(左)と、AI内部表現に対応する脳部位(右)。R値は脳活動とAI内部表現の時間変化の一致度を示す相関係数(出所:東大プレスリリースPDF)

まずエンコーディングモデルは、大脳皮質のさまざまな領域の脳活動を予測可能にした。その結果、運動特徴は主に視覚~背側経路、音響特徴は腹側視覚野と聴覚皮質、そしてクロスモーダル特徴は頭頂間溝・楔前部といった高次連合領域を特によく予測したとのこと。また、側頭-頭頂連合領域は幅広い情報を表現していたのに加え、脳領域ごとによく反応するダンスが異なることも示されたとする。

また併せて行われた大規模オンライン評価では、各ダンス動画について、42の感情や審美に関する印象が収集された。エンコーディングモデルを用いて、それらの印象とモデル推定脳活動を対応付けることで、躍動感や審美といった、ダンスから惹起されたそれぞれの印象がどのような脳部位を賦活させるかが特定された。この結果、ダンスから生じる印象は広い範囲の脳部位と複合的に結び付くことが明らかになり、その表現が単純な次元では捉えきれないことが示唆された。

  • ダンス鑑賞体験で生じる印象を収集し、それぞれの印象がどのような脳部位を賦活させるのかを特定

    ダンス鑑賞体験で生じる印象を収集し(左)、それぞれの印象がどのような脳部位を賦活させるのかが特定された(右)(出所:東大プレスリリースPDF)

また、熟達ダンサーと未経験者の比較では、熟達ダンサーは特に運動特徴を幅広い脳領域で表現する傾向にあるという。その一方で、被験者間の活動パターンの個人差が大きいことも明らかにされた。

次に、実在のモーションに他ジャンル音楽を人工的に組み合わせた仮想のダンス動画を作り出し、脳シミュレータによる脳活動の推定が行われた。その結果、実際のダンス動画は視覚皮質が強く賦活されるのに対し、人工的に作られたダンス動画では相対的に前頭領域の活動が高まる傾向が確認された。この現象は、不一致/予測誤差などが引き起こす脳内のプロセスを示唆するものだ。

これらの結果から、音と動きが織りなす高次の時系列構造を持つクロスモーダル表現が、自然なダンス観察時の脳活動をより的確に説明すること、また審美・感情経験や熟達度がその表現と結び付くことを示すことが判明した。今回の成果は、生成AI×自然視聴fMRIという枠組みは、神経美学、ダンス科学、創作支援AIなどへの応用に向けた有力な手がかりを提供するものとしている。