TIS、機械学習で感情解析を行うためのデータセット無償公開

TISは4月10日、機械学習で感情解析を行うためのデータセット「chABSA-dataset」（チャブサ・データセット）を、無償公開すると発表した。

「chABSA-dataset」は上場企業の有価証券報告書(2016年度)をベースに作成されたデータセットで、各文に対してネガティブ・ポジティブの感情分類だけでなく、「何が」ネガティブ・ポジティブなのかという観点を表す情報が含まれているという。こうした観点単位の感情分類を機械学習モデルに学習させることで、より高度な解析が実現できるという。

「chABSA-dataset」に収録されているデータのイメージ

「chABSA-dataset」を利用した感情解析では、例えば、「商品Aの売上が上がった」という文について単にポジティブ、というだけでなく、「商品A」の「売上」が「上がった」（=ポジティブ）である、ということが判断できるという。

観点単位の感情分類結果を表にした場合のイメージ

この表では、緑の色が濃いほどポジティブ、灰色の色が濃いほどネガティブであることを示し、図中では、「商品A」の「売上」についてポジティブな表現がされ、「商品B」の「コスト」についてはネガティブな表現がされている、といった解析結果をまとめたイメージ。このように、「chABSA-dataset」を活用することで、機械学習による高度な解析が可能になるという。

今回公開した「chABSA-dataset」は、特定の「観点」に沿い文書をまとめる「観点要約」の研究の一貫で作成されたもので、「chABSA-dataset」を利用することで、「何が」良い評価・悪い評価なのかを判断する機械学習モデルの開発が可能になり、こうしたモデルは、将来的にはマーケティングデータに対し"商品のどういった点が評価され、どういった点が不満に思われているのか"などの分析に役立つという。また、各商品を同じ観点で評価することが可能になるため、商品間の評価の比較を行う際にも活用が期待できるという。