東京大学(東大)は9月9日、ネズミ(ラット)の大脳皮質から脳波の一種の「局所場電位」を記録し、それを利用してイラストを描かせる生成AIのシステムを構築したことを発表した。
同成果は、東大大学院 薬学系研究科の山城皓太郎大学院生、同・池谷裕二教授らの研究チームによるもの。詳細は、米オンライン科学誌「PLOS ONE」に掲載された。
現在、指示文章を入力すると、その内容に沿った画像を出力してくれる生成AIがPCやスマートフォンのアプリとして、誰でも無償で手軽に利用できるようになっている。そうした潮流の中で、革新的なことを実施したのが英国のスタートアップのStability AI社。2022年8月に画像生成AI「Stable Diffusion」をオープンソースとして公開しており、性能を満たしたPCさえあれば、モデルそのものをカスタマイズし、自在に画像を生成することが可能。そこで研究チームは今回、Stable Diffusionを改造し、ラットの大脳皮質から記録した局所場電位を直接リアルタイムで入力できるようにし、イラストを生成できるシステムを開発することにしたという。
Stable Diffusionには、ノイズから画像を生成できる「潜在拡散モデル」というAIが用いられている。同モデルは、ノイズを追加してデータを劣化させる関数と、そのノイズを除去するための単純な画像復元ネットワークという2つのパーツから構築されており、ノイズを起点として徐々にノイズを除去していくことで、データへと変換していく仕組みとなっている。このノイズを除去していく段階で、入力された指示文章を指針とすることで、その内容に沿った画像がノイズから生成されるのである。
また、指示文章をあえて入力しないことで、入力ノイズのみに依存した画像を生成することも可能。ノイズから画像をどのように生成するかは学習のさせ方次第となり、その結果、ガウスノイズなどのランダムなノイズを入力すると、学習した画像のスタイルに沿ったまったく新しい画像を生成することが可能になるという。
そこで今回のシステムでは、指示文章を入力しないことに加え、画像の元となるノイズにはラットの大脳皮質から記録された局所場電位が代わりに用いられた。なお局所場電位は、ニューロンが発する信号を記録したものであるため、波の形をした時系列データだ。そのままで入力することができないことから、局所場電位の次元をStable Diffusionのデータ形式に合うように圧縮した上で利用された。
局所場電位は1秒の区間を1/30秒ずつずらして切り取り、その時間窓に応じて1/30秒ごとに画像が生成される。局所場電位は時系列データなので、1/30秒前の脳波と現在の脳波は類似している。これにより画像間の移行がスムーズになり、脳波の変化に応じて徐々に変化する画像が生成されるという。
ちなみに、ラットの内部状態を反映させた内容の指示文章を入力することができれば、興味を持っている時には明るい雰囲気の画像、眠たい時には静かな雰囲気の画像、というようにラットの「気分」に応じた画像を生成できるようにもなるとする。
今回開発された手法は、原理的に、神経活動だけでなく、心臓や腸蠕動などの多くのバイオ信号、風や波などの自然現象といった、あらゆる時系列信号に応用することができる。そのため、今回の技術は、芸術の創作手法における新しいジャンルを開拓することが期待されるとしている。