続いて研究チームは、自由エネルギー原理を拡張した、心の揺れ・葛藤を伴う意思決定のモデルとして「Reward-Curiosity(ReCU)モデル」を構築した。同モデルでは、それぞれのスロットマシンを選んだ時に得られる報酬と情報量の期待値を見積もり、それらの重み付け和によって、どちらを選択すべきかが決断される。報酬と好奇心との葛藤を記述するため、情報量に対する重みが「好奇心を調整するメタパラメータ」として導入されたことが同モデルの特徴だという。
同モデルにより、動物が認識している報酬確率やその確信度(=自信)に基づいて意思決定する様子のシミュレーションが可能になったという。さらに、報酬や好奇心の度合いに応じて、以下の3つの異なる行動様式が表現された。
- 報酬が大きい時:報酬に対する貪欲な行動
- 好奇心が正に大きい時:不確実性を好む探索的な行動
- 好奇心が負に大きい時:不確実性を嫌う保守的な行動
これらの結果から、好奇心はヒトや動物の意思決定に大きな影響を及ぼし、しばしば非合理的な行動を引き起こすことが示されたとする
次に、ReCUモデルに基づいて、行動データから心理状態の時間変化を読み解く逆自由エネルギー原理法が開発された。同手法では、目に見えない心理状態の時間変化をベイズ推定により読み解くため、機械学習「粒子スムーザー」が用いられた。
同手法をスロットマシン課題の行動データに適用したところ、ラットは真の報酬確率を完全に認識しているわけではないものの、報酬確率の増減は認識していることが確認された。また、認識に対する自信は選択すればするほど増加し、逆に選択しないと減少することも明らかになった。
さらに、ラットの好奇心の値はほとんどの試行で「負」であることが推定されたという。すなわち、実験で用いられたラットは報酬確率の認識が曖昧な方を避け、認識が明確な方を好んで選択する、保守的な性格を有するということが明らかにされた。この保守的な行動は、動物が報酬を安定して得ようとするためと解釈できるとする。
また、報酬確率の変化に伴って、好奇心が上昇することも判明した。この結果からは、動物は環境の変化を素早く認識し、好奇心を適応的に制御していることが解釈できるという。さらに、推定された好奇心と認識とを比較したところ、ラットは報酬確率の認識が曖昧になると、好奇心のレベルを積極的に上昇させることが突き止められた。研究チームは、このように動物が現在の認識と不確実性の度合いに応じて、好奇心を適応的に制御していることを定量的に示した報告は重要な成果だといえるとした。