東京大学(東大)は9月9日、ネズミ(ラット)の大脳皮質から脳波の一種の「局所場電位」を記録し、それを利用してイラストを描かせる生成AIのシステムを構築したことを発表した。

同成果は、東大大学院 薬学系研究科の山城皓太郎大学院生、同・池谷裕二教授らの研究チームによるもの。詳細は、米オンライン科学誌「PLOS ONE」に掲載された。

  • ネズミの大脳皮質の神経活動から画像をリアルタイムで生成

    ネズミの大脳皮質の神経活動から画像をリアルタイムで生成(出所:東大プレスリリースPDF)

現在、指示文章を入力すると、その内容に沿った画像を出力してくれる生成AIがPCやスマートフォンのアプリとして、誰でも無償で手軽に利用できるようになっている。そうした潮流の中で、革新的なことを実施したのが英国のスタートアップのStability AI社。2022年8月に画像生成AI「Stable Diffusion」をオープンソースとして公開しており、性能を満たしたPCさえあれば、モデルそのものをカスタマイズし、自在に画像を生成することが可能。そこで研究チームは今回、Stable Diffusionを改造し、ラットの大脳皮質から記録した局所場電位を直接リアルタイムで入力できるようにし、イラストを生成できるシステムを開発することにしたという。

Stable Diffusionには、ノイズから画像を生成できる「潜在拡散モデル」というAIが用いられている。同モデルは、ノイズを追加してデータを劣化させる関数と、そのノイズを除去するための単純な画像復元ネットワークという2つのパーツから構築されており、ノイズを起点として徐々にノイズを除去していくことで、データへと変換していく仕組みとなっている。このノイズを除去していく段階で、入力された指示文章を指針とすることで、その内容に沿った画像がノイズから生成されるのである。

  • 潜在拡散モデルの仕組み

    潜在拡散モデルの仕組み。生成したい画像の指示文と、ノイズ(橙色)を入力とする。指示文は、文字埋め込み層によって単語ベクトル(青)に変換される。それぞれが潜在拡散モデルに入力され、ノイズから画像が復元される。最後に潜在空間のベクトルがデコーダによって画像の次元に拡張され、画像として出力される(出所:東大プレスリリースPDF)

また、指示文章をあえて入力しないことで、入力ノイズのみに依存した画像を生成することも可能。ノイズから画像をどのように生成するかは学習のさせ方次第となり、その結果、ガウスノイズなどのランダムなノイズを入力すると、学習した画像のスタイルに沿ったまったく新しい画像を生成することが可能になるという。

  • 実装されたシステムの構造

    実装されたシステムの構造。ラットの大脳皮質から記録された局所場電位の変換方式。1秒間の局所場電位を潜在ベクトルの形に変形させる。局所場電位を変換して作られた潜在ベクトルを潜在拡散モデルに入力することで、画像が得られる。なお、指示文章は入力されない(出所:東大プレスリリースPDF)

そこで今回のシステムでは、指示文章を入力しないことに加え、画像の元となるノイズにはラットの大脳皮質から記録された局所場電位が代わりに用いられた。なお局所場電位は、ニューロンが発する信号を記録したものであるため、波の形をした時系列データだ。そのままで入力することができないことから、局所場電位の次元をStable Diffusionのデータ形式に合うように圧縮した上で利用された。

局所場電位は1秒の区間を1/30秒ずつずらして切り取り、その時間窓に応じて1/30秒ごとに画像が生成される。局所場電位は時系列データなので、1/30秒前の脳波と現在の脳波は類似している。これにより画像間の移行がスムーズになり、脳波の変化に応じて徐々に変化する画像が生成されるという。

  • 連続的に変化する画像の実装

    連続的に変化する画像の実装。1秒間の局所場電位を1/30ごとに切り出し、潜在ベクトルへの変換が行われた。時間的に隣り合う潜在ベクトルが類似しているため、潜在拡散モデルを通して得られた連続する画像はなめらかな推移を示す(出所:東大プレスリリースPDF)

ちなみに、ラットの内部状態を反映させた内容の指示文章を入力することができれば、興味を持っている時には明るい雰囲気の画像、眠たい時には静かな雰囲気の画像、というようにラットの「気分」に応じた画像を生成できるようにもなるとする。

今回開発された手法は、原理的に、神経活動だけでなく、心臓や腸蠕動などの多くのバイオ信号、風や波などの自然現象といった、あらゆる時系列信号に応用することができる。そのため、今回の技術は、芸術の創作手法における新しいジャンルを開拓することが期待されるとしている。