沖縄科学技術大学院大学(OIST)は2月27日、AIシステムを幾何学的観点から研究し、幾何学的欠陥の発生、いわゆる「グロモフのリンク条件」の不履行が、移動するAIエージェント同士の衝突の可能性がある場面と正確に相関することを突き止めたと発表した。

同成果は、OIST ビジティング・リサーチャーのトーマス・バーンズ博士、同・ロバート・タン博士(研究当時)の研究チームによるもの。詳細は、機械学習に関する全般を扱う学術誌「Transactions on Machine Learning Research」に掲載された。

AI研究、特に強化学習の分野で長く研究されてきた「グリッド世界」は、ビデオゲームやチェス・囲碁のようなボードゲームにおいて人間を打ち負かしてきた。またその利用に向けては、たとえば自動運転車や倉庫における搬送用ロボットなどの動きを調整して安全に使えるようにするなど、実世界での応用が期待される、簡易で拡張可能なモデルを提供するという。

グリッド世界は正方形のセルを格子状に並べたもので、単一のエージェントやオブジェクトがセルを占有していることもある。この世界には、ドアやボタン、敵など、ゲームのようにさまざまなものを追加でき、それらの複雑なシナリオの幾何学や位相を考えることができる。

またグリッド世界のエージェントについては、報酬を追求するなどのプログラムをすることが可能だ。それらはグリッド内の隣接するマス目間を移動できることから、グリッド世界内の正確な場所に到達するといった特定の目標を課された時のエージェントの動きや計画、戦略などについての研究が行われている。

今回の研究では、グリッド世界でエージェントとオブジェクトの配置が指定された状態から出発して、許容可能なアクションによって実現されるすべての状態を模索したとのこと。今回許容されているアクションは、エージェントを隣接する空のセルに移動させる“移動”と、エージェントにオブジェクトを真っすぐ押したり引いたりさせる“押し/引き”の2種類だ。

こうしたプロセスを十分な回数繰り返すと、システムのすべての可能な構成を単一の幾何学的オブジェクトとして表現する「状態複合体」を作ることができる。これにより、状態空間を幾何学(オブジェクトの正確な形状に関する)・位相幾何学(曲げたり、伸ばしたり、縮めたりといった変形の元でも保たれる空間の性質)・組み合わせ論(オブジェクトの数え上げや組み合わせ)の数学的ツールを使って研究できることになるという。今回の研究では、ペンと紙を使った数学と、今回の目的のために開発されたプログラムが組み合わされ、状態複合体の作成と分析が行われた。

グリッド世界では、2つのエージェントが近づきすぎるとぶつかる可能性がある。この潜在的な衝突は幾何学的な欠陥が示唆されており、グリッド世界でこの現象が起こる度に衝突の可能性があることが今回の研究で明らかにされた。

幾何学的欠陥が1つでもある場合、状態複合体全体がその利点を失うことになることから、研究チームは当初、幾何学的欠陥がないことを示そうとしたとのこと。研究の過程で小さな厄介事が山ほど発見されたが、研究を続けるうちに、それらは厄介事ではなく、何か重要なことと関連しているのかもしれないと考えるようになったとする。そして最終的に、実際に重要な安全性の情報と関連していることが確認された。

またグリッド世界は、チェスや囲碁などのボードゲームも含めることが可能だ。そして研究チームは、チェスにおいて2つのエージェントが、ナイトの移動やビショップの2段階の移動によって分離される時、これらの幾何学的欠陥が状態複合体で発生することを証明することにも成功した。なお、このような欠陥が発生するのはチェスのような限られた場合だけで、現実の世界では、ロボット同士が倉庫でぶつかったり、自律走行車が交差点で衝突したりする可能性があるというが、重要なのは衝突する地点ではなく、衝突する直前の瞬間としている。

  • 複数のエージェントが存在するグリッド世界において、グロモフのリンク条件が失敗につながる2つの状況

    複数のエージェントが存在するグリッド世界において、グロモフのリンク条件が失敗につながる2つの状況。ナイトの移動(左)とビショップの2段階の移動(右)。えび茶色の矢印は許容される動きを示し、青い四角は許容される「ダンス」を示す。グリッド世界におけるダンスは、4マスの形での4つの動きで構成される。エージェントは相手のダンスを中断することもできるし(左)、2つのダンスが対角線上で衝突することもある(右)(出所:OIST Webサイト)

さらに、幾何学的欠陥や幾何学的手法は、既存のAIシステムの理解を深めるのに役立つという。たとえば、エージェント間の衝突を回避するように訓練されたAIシステムで、幾何学的欠陥がどこにあるのかを発見することが可能とする。それは、ロボットとヒトが頻繁に関わる場面、たとえば生活支援ロボットとの共同生活において、衝突をより効率的に予知検出するのに役立つ可能性があるとした。

研究チームのバーンズ博士は今回の研究成果に対し、複数のエージェントが存在するAIを活用した環境において、安全な制限を模索するための新たな方法を提供するとしている。

エージェントとオブジェクトが1つずつ配置された3×3グリッド世界(右)の状態複合体(左)。状態複合体内の色の濃い点は、右のグリッド世界の状態を表している。状態複合体の辺は対応するアクションに応じて色付けされ、オレンジ色は押し/引き、えび茶色は移動を表す。状態複合体のそれぞれの「花びら」は、エージェントであるコアラがオブジェクトであるボールを円状に動かしたもの。(出所:OIST Webサイト)