東北大学は10月31日、AIや機械学習で問題となる「ラベルノイズ」(間違ったラベルのついたデータ)を取り除く新技術として、「ブラックボックスの最適化」を活用し、ノイズフリーな検証データセットに対する検証誤差を最小化することで、訓練データセットに含まれる誤ラベルデータの部分集合を効率的に推定する手法を開発したと発表した。
また実験では、D-Wave Quantumの量子アニーラを利用し、古典的なシミュレータと比べてウォールタイム(実際の経過時間)で10倍から100倍の高速化が確認されたことも併せて発表された。
-

今回の提案手法の概念図。ラベルノイズのある大量の学習用データセットから、複数の異なる「データの選び方」に対し、それぞれ検証誤差を紐づけ、その関係性から検証誤差が低くなりそうなデータの選び方が検討された。その選択に量子アニーリングが用いられた(出所:東北大プレスリリースPDF)
同成果は、東北大大学院 情報科学研究科の大関真之教授、同・大学大学院 研究科の大塚誠客員研究員(LiLz研究員兼任)らの共同研究チームによるもの。詳細は、英オンライン総合学術誌「Scientific Reports」に掲載された。
AI学習による汎化性能を大きく改善!
AIや機械学習は大量のデータを使って学習するが、実際のデータには人為的な記録ミスや外的要因によって“間違った答え”が混入してしまうケースがある。こうした誤りはラベルノイズや誤ラベルなどと呼ばれ、AIの精度を大きく低下させる原因となっている。
これまで、ラベルノイズを除去する手法として、統計的な方法や複数モデルを組み合わせる方法を用いて、間接的に除去する技術の開発が試みられてきた。しかし、最終的な汎化性能に直結する「検証誤差」を直接最適化する手法は、実用的には困難と考えられている。そこで研究チームは今回、ブラックボックスの最適化を活用するアプローチを採用したという。
そもそもブラックボックスとは、AIがどのようにしてその結論にたどり着いたのか、人間には理解や説明ができないことを指す。そして、ブラックボックス最適化とは、可能な限り少ない試行回数でブラックボックス関数の性質を理解し、その関数を最適化することを実現するための手法だ。
ブラックボックス最適化の基本的な考え方は、以下の通りだ。まず既存のデータセットからブラックボックス関数をモデル化する代理関数の定義を行う。次に、代理関数に基づき、ブラックボックス関数の次の探索点を決定する獲得関数を定義。そして、獲得関数を最適化することで得られた次の探索点を実際にブラックボックス関数で評価し、得られた入出力関係を既存のデータセットへ追加し、代理モデルを更新する。この手続きを反復することで、ブラックボックス関数の最適化を目指すのである。
今回の研究では、このブラックボックス最適化を活用し、ノイズフリーな検証データセットに対する検証誤差の最小化が行われた。その結果、訓練データセットに含まれる誤ラベルデータの部分集合を効率的に推定することに成功した。
さらに、人工的に作成されたデータセットからラベルノイズを除去するタスクが、同一条件で異なるサンプラーによって実行された。そして、D-Wave Quantumの量子アニーラを用いた場合、古典的なシミュレータよりも多様で高品質な候補解が高速に得られ、結果的に大域的最適解により近い解がウォールタイム(実際の経過時間)で約10倍から100倍高速に発見できることが示されたとした。また、今回の手法を用いると、ラベルノイズ中でも汎化性能に悪影響を与える度合いの大きなデータ点が優先的に除去されることなども示されたとする。
なお量子アニーラとは、組み合わせ最適化問題に特化した量子アニーリング方式の量子コンピュータだ。そして量子アニーリングとは、極低温環境における量子揺らぎを利用し、最適化問題のエネルギー状態を揺らしながら探索することで、局所的な最適解に陥らず、より安定した(低エネルギーな)解に到達させる手法のことである。この量子アニーリングでは、量子揺らぎにより、デジタル信号処理における0と1の重ね合わせ状態を実現できる。この重ね合わせを巧みに利用することで、どちらの状態にあるのが最も相応しいのか、最適化問題における解答を探索することが可能になるのである。
今回の手法は、小規模で人工的なデータセットにとどまらないという。今後は、医療や産業分野における大規模実データの品質向上、ラベルなしデータセットの品質向上、特徴量選択と組み合わせた学習データと特徴量の同時最適化などの展開が期待されるとしている。