東芝は5月10日、少量データを用いたオフライン強化学習で高精度にロボットを制御するAIを開発したことを発表した。
製造・保守・物流といった業界は慢性的な人手不足であり、中でも製造業は2030年には需要に対して供給される人員が38万人不足するといった試算もなされており、人手不足の解消に向けたロボットを活用した自動化に対する期待が高まっている。
こうした市場ニーズの高まりは世界的な傾向で、産業オートメーション(FA)の市場規模は2022年の2059億ドルから2029年には3951億ドルまで年平均成長率(CAGR)9.8%で成長するという予測もある。製造業の中でも右から左に受け流すといったような単純作業はすでに自動化が進んでいるが、複数の流れている物体の中から、必要な物体だけを取り出すといった作業は、一部で自動化が進んでいるものの、その実現には対象とする物体の位置や姿勢に対し、それがどのように動くのかといった動作計画を専門家が設計・開発する必要があり、導入に対する負荷が高い取り組みとなっている。今回の研究は、そうした作業負荷を機械学習を活用して低減することを目指したものとなるが、従来の強化学習手法そのものにも課題があったという。
というのも、「オンライン強化学習」はロボットが自律的に実際に試行錯誤することにより状況に応じた制御を学習する手法だが、ロボットに実際に現場にて試行錯誤を行わせる必要があるため、安全上の懸念もあり、実際には現場に導入して試すということは難しいという課題があった。一方の「オフライン強化学習」については、先行してさまざまな状況におけるロボットの操作を入力したデータをもとに制御する手法であり、その数千パターンにもおよぶ膨大なデータを人の手を介して入力するには早くても数週間から数か月かかるという課題があったという。
今回同社が開発した手法は、少量のデータであっても効率よく学習することを可能としたもので、具体的にはオフラインデータを2段階で制御することを学習させることが特徴だという。
例えば、人は何かモノを取ろうと思った時、まず対象物を見てから手を動かすが、これと同じような行動をロボットにも行わせようというもの。まず、1段目の制御として、全体の画像を取得し、そこからロボットアームの移動先を決定させる。実際には作業の様子を録画した映像を学習させたとのことだが、ここまでは従来のオフライン強化学習と同じ手法となる。今回は、さらに2段目の制御として、1段目で決定した移動先周辺の画像を切り出し、補正を加えることで精度を高める学習を実施。この2段目の制御の精度が高くなると、効率の良い学習ができることとなる仕組みだという。
この2段目の高効率化に向けて、今回の取り組みでは大きく3つの手法が取り入れらた。1つ目は、注目領域を切り出して、どこに注目すれば良いのかを特定箇所に集中させ、無駄な情報を省くというもの。2つ目は、元が同じ画像であっても、1段目で決定した移動先をランダムに動かした画像を大量に用意して補正に活用することで精度を高めるというもの。そして3つ目は、移動先そのものを学習させるのではなく、補正した値を学習させるようにすることで効率的な学習を実現したとのことで、こうした手法を活用することで、従来数週間から1か月ほどかかっていたデータ作成作業が半日ほどに短縮できることも確認したという。
実際の試験として、公開ベンチマーク環境の8種類の作業の平均成功率での評価を実施。学習に使うデータは100回の操作データで学習させたところ、従来のオフライン強化学習では精度36%であったものが、平均72%まで向上できることを確認したという。個別で見た場合、高いものでは99%の精度に達したものがある一方、47%の精度に留まったものもあり、同社では実際の現場での作業においても成功率の高いもの、低いものに分かれるとみており、成功率の高い作業を見極め、そうした領域から実用化を進めていきたいとしている。具体的には、今後の精度向上にもよるが、ロボットアームによる作業や溶接などの製造工程の自動化、AGVやドローンなどの移動体の自動制御、医療機器操作などへ応用を検討したいとしている。
なお、同成果の詳細は5月13日~17日に横浜で開催されうロボティクス分野の国際会議「IEEE International Conference on Robotics and Automation(ICRA)」にて発表される予定だという。