東北大学は6月7日、人間の計測データを使わずに、深層強化学習を用いて7自由度の多関節アームの自然なリーチング運動パターンを生成する手法を提案したことを発表した。

同成果は、東北大 大学院工学研究科 ロボティクス専攻の林部充宏教授、同・Han Jihui大学院生(研究当時)らの研究チームによるもの。詳細は、IEEEが発行する「IEEE TRANSACTIONS ON MEDICAL ROBOTICS AND BIONIC」に掲載された。

ヒトの身体の運動制御は、実は数学的には難題だ。意識することなく身体を動かしているが、いくつもの関節があり、なおかつ動かせる方向(自由度)が複数あるものも多いためで、この自由度の多さの問題は、多数の関節の冗長性問題と多数の骨格筋の冗長性問題に起因し、「多自由度空間問題」といわれる。ヒトがどのようなメカニズムで、この多自由度空間問題を解決しているのかという議論は、昔からなされてきたという。

この多自由度問題はベルンシュタイン問題ともいわれ、ロシア帝国・旧ソビエト連邦のNicholai A. Bernstein(1896-1966)の階層的運動制御の考え方に基づいて運動シナジー(強調構造)の存在が示唆され、後の研究により、運動シナジーが人間や生物の運動制御で用いられていることが確認されたという。しかし、中枢神経がどのような法則に基づいて、どのようなメカニズムで生成されているのかは今もってよくわかっておらず、現在でも計算論的数理モデルの構築に成功していないという。

これまでの計算論的神経科学においては、何らかの評価関数を最小にする(最適化する)ような計算方法が提案されているが、そのためには、環境と身体の数学的モデルが事前に必要となってしまう。

真の意味で未知の物理的環境下での運動学習の方法としての解決策やシナジー生成メカニズムを明らかにすることは容易ではなく、どのような計算指針でシナジーが生成されるのかについて扱うものが、これまではほとんどなかったとする。

そこで研究チームは今回、深層強化学習において環境適応性を確保しつつ、運動シナジーが発現するプロセスを再現できるかどうかの検証を行うことにしたという。

具体的には、高自由度多関節アームを使用し、事前のモデルや環境の情報をまったく与えずに、純粋に深層強化学習のみによる繰り返し試行によりリーチング運動の学習が行われ、関節空間の運動制御がどのように変化しているかが調査された。

  • alt属性はこちら

    深層強化学習により環境の違いに適応している様子(左側は軽い手、右側は重い手の条件で発現されたリーチング運動の様子) (出所:東北大プレスリリースPDF)

また、関節運動の時空間パターンにPCA(独立主成分分析)が用いられ、運動シナジーの発現度合いを試行ごとに定量化し、運動習熟度との連動性が調べられ、学習が進むにつれて、運動シナジーの発現により関節の連動性が高まること、またそれがフィードフォワードのパターンを形成していることが確認されたという。

  • alt属性はこちら

    (a)~(c)は7自由度アームの終点遷移について。(a)PDフィードバック制御。(b)DRL制御。(c)同じく、フィードバック制御と併用したPDRL制御の場合。(d)と(g)は終点誤差の推移。(d)DRL。(g)PDRL。(e)と(h)はエネルギー消費量の推移。(e)DRL、(h)PDRLで、エネルギー消費がフィードバックからフィードフォワードに遷移していることが見て取れる。(f)と(i)は関節連動性の変化。(f)DRL。(i)PDRLで、関節連動性がフィードフォワードのエネルギー消費量に対応していることが確認できる (出所:東北大プレスリリースPDF)

さらに、PDフィードバック制御と深層強化学習を同時に使用するPDRLフレームワークが新たに提案され、フィードバック制御からフィードフォワード制御に遷移していく運動学習の様子が再現された。そして、運動シナジーの発現度合いがエネルギーあたりのパフォーマンスと高い相関関係にあることが明らかになったという。

運動シナジーのレベルが上がるにつれて、アームの動きが滑らかになっていくのがわかる

今回の研究から、深層強化学習による運動学習タスクにおいて、運動シナジーの発現プロセスが起きていることが確認されたが、それがエネルギー当たりのパフォーマンスと高い相関を示したことは、なぜ人間や生物が運動シナジーを活用しているのかという問いの答えにつながるため、科学的な意義が高いと考えられると研究チームでは説明している。また、工学的な応用として、効率的な運動学習における潜在的な方策として運動シナジーを用いることができれば、計算の効率化につながるため、今回の研究成果は新しい深層強化運動学習アルゴリズムに向けて示唆に富む情報となることが期待されるとしている。