AIモデルにデータセットは欠かせない。AIの成功や精度を決めるのはモデルだと考えられがちだが、実際にはデータであることが多い。データは、モデルのトレーニングから実装までAIワークフローの全行程で使うものであり、堅牢なAIモデルを設計する際にはデータの準備が精度の決め手となる。

以下の5つのヒントをもとにデータ準備のプロセスを改善し、AIシステム開発を成功に導いてほしい。

ヒント1:手持ちのデータで妥協しない

「どのくらいのデータが必要か?」 AIプロジェクトの最初に最も頻繁に聞かれる質問だろう。しかし、問うべき事はデータの量ではなく、モデルが高い精度で目標を達成するための「適切な」データが十分にあるかだ。データの意味合いを学び、理解するのに十分なサンプルをモデルに提供できなければ、精度の高いモデルは作れない。

適切なデータが十分にない場合でも、手持ちのデータで妥協してはいけない。データ不足を解消するさまざまな手法がある。

  1. 物理モデルのシミュレーションで新しいデータを生成する。これは予知保全の分野でよく行われる手法だ。例えば、石油の採掘に使われる油圧ポンプの場合、ポンプのシール漏れは致命的な故障原因としてよく知られている。しかし滅多に起こらない上に破壊的であるため、実際の故障データを得るのは非常に困難だ。物理システムの設計とシミュレーションを行うSimulinkやSimscapeのようなツールを使うと、ポンプのリアルなモデルを作成し、さまざまな故障シナリオでシミュレーションが可能だ。この方法を使えば、AIモデルの学習に必要なデータを生成でき、現場の実システムで将来の故障発生を検知することができる。
  2. GAN(敵対的生成ネットワーク)などの最新のディープラーニング技術を使用して、元のデータと同様の特性や特徴を持つデータを生成する。GANは画像データと時系列データの両方のデータ生成に使用できる。画像の場合、GANを使って合成画像を生成し物体検出器や画像分類器の学習に使用することが可能だ。時系列データの場合、GANを使った音声合成のデモにあるような方法で時系列データを生成することが可能だ。

シミュレーションとディープラーニング技術を用いた上記の例では、生成したデータをAIモデルのトレーニングに使うことでデータ不足の問題を軽減するとともに、エンジニアは正確なモデルの構築に注力することができる。

Atlas Copcoは、Simulinkでポンプの物理モデルを構築してシミュレーションを行い、AIモデルに必要なデータを作成し、稀にしか起こらないケースも含めて、現場で起こりうるすべてのシナリオを表現することができた。また、同社はMATLABとSimulinkを使用して、予測に基づく保全スケジュールを作成(予知保全)し、信頼性の高い情報を現場チームに提供した。これにより、何千人ものエンジニアが信頼性の高いパフォーマンスを実現できるようになった。

ヒント2:「データが多ければモデルがうまくいく」とは限らない

大量のデータがあってもモデルのパフォーマンスが上がらないというのは、AIモデルの設計においてよく聞く悩みだ。

先日、MathWorksのエンジニアがさまざまなクラスの動物を識別するニューラルネットワークを設計していた際に、野生動物の数百万サンプルの撮影画像という膨大なデータを収集した。素晴らしい結果が期待されていたが、モデルの精度は80%が限界であった。ハイパーパラメーターを調整することで、数パーセント高い精度を得ることができた。一歩下がって、モデルではなくデータを見てみると、静止していない動物や、耳や鼻など動物の一部のみの写真などがあった。曖昧なデータサンプルを取り除くことで、混乱のもとになる画像が少なくなり、精度の高い結果が得られたのである。

このように、データ数が多くても精度が上がらない場合は、データのクリーニング、クロッピング、ラベル付け、変換などを行い、できるだけ質の高いデータサンプルをモデルに提供することが解決策となる。Computer Vision ToolboxSignal Processing Toolboxなどのツールを使うと、ビデオのラベリングや信号のラベリングを自動で行うことができ、モデルの学習に必要なクリーンなサンプルを素早く作成することができる。

ヒント3:ドメインの専門知識を使ってデータを変換する

正確なモデルは考え抜いて準備したデータを使えば作ることができる。これは信号データを使うエンジニアや科学者にとっては特に重要だ。信号データはノイズが多くメモリを消費するため、生の信号データをAIモデルに直接加えることはほとんどない。その代わり、モデルが学習する最も重要な特徴の収集には、データを変換する時間周波数技術がよく用いられる。

例えばUT Austinでは、MATLABの信号変換関数とアプリを使って、脳波をウェーブレットを使った画像に変換し、ディープラーニングモデルの学習入力として使用した。この技術は、信号の全体的な特性を維持しながら、信号を画像にコンパクトに変換することができる。このモデルは、96%以上の精度で単語やフレーズを検出した。

  • 図1:時間-周波数変換(スカログラム)とディープニューラルネットワークを用いて、想像上の言葉「goodbye」に対応する脳信号を分類したもの

    図1:時間-周波数変換(スカログラム)とディープニューラルネットワークを用いて、想像上の言葉「goodbye」に対応する脳信号を分類したもの

ヒント4:データをモデルのインサイトとして利用する

これまでモデルはブラックボックスだと考えられてきた。最近では、モデルのデバッグと検証の分野での様々な研究により、モデルをより深いレベルで理解できるようになってきた。デバッグ技術の多くは可視化することでモデルのインサイトを得られる。例としては、モデルの意思決定に最も重要な画像内の場所を強調するLIMEやオクルージョンマッピングなどの可視化技術が挙げられる。

図2の画像を見ると、カップがバックルと間違われている。デバッグ技術により、そのカテゴリーが予測された理由や、そのカテゴリーに基づいてモデルが画像のどこに主眼を置いているかを確認することができる。

  • 図2: 可視化技術により、モデルの意思決定のインサイトを得ることができる。© 1984-2021 The MathWorks

    予測:バックル

  • 図2: 可視化技術により、モデルの意思決定のインサイトを得ることができる。© 1984-2021 The MathWorks

    デバッグの可視化

  • 図2: 可視化技術により、モデルの意思決定のインサイトを得ることができる。© 1984-2021 The MathWorks, Inc.

この画像では、モデルがマグカップではなく腕時計に注目していることが明らかだ。

LIMEのようなデバッグ技術は、データを通じてモデルを理解しようとするため、データはデバッグプロセスと等しく重要である。モデルその物に加えて最も重要な特徴量も把握し、デバッグ情報をモデルの改善に役立てることができる。

ヒント5:本番環境に向けたデータ管理

精度の高いモデルのプロトタイプが、本番システムにおいてもそのまま精度の高いモデルになるとは限らない。構築したモデルで予測を行うためには、データパイプラインが入力された生データを処理できるか確認し、さらに本番データでモデルが意図したとおりに動作するかを検証する必要がある。本番データは取り扱いが難しく、厄介な点を含む場合がある。

  • ライブのセンサーデータは、欠損値や異常値、あるいはセンサーの故障などにより綺麗なデータとは限らない
  • モデルは、同期すべき複数のセンサーからの信号を同期せず結合させてしまうことがある
  • 物理的なシステムは、磨耗や部品の追加などにより経年変化する。これがモデルドリフトの原因となり、時間の経過とともに性能が低下していく

AIシステムの成功には、モデルのライフサイクル管理が欠かせない。これには、モデルの使用期間を通じたモデルのトレーニング、実装、モニタリング、更新、メンテナンスを指す。モデルのトレーニングに必要なデータから、モデルを実装する前の検証や妥当性確認に必要なデータまで、これらすべてのプロセスにおいて鍵となるのはデータだ。

上記の5つのヒントでご紹介したように、AIでの成功、データを結果に変えるには、データが鍵となる。データそのものというより、適切にデータを準備しデータを成功するAIモデルに変えることが重要だ。解決すべきビジネス上の問題は何か、データのどの部分が最もインサイトのある結果を生み出すのかを問うことを忘れないようにしたい。精度の高いロバストなモデルを作成するには、モデルの作りこみよりもデータとその適切な準備が秘訣なのだ。

[PR]提供:MathWorks Japan(マスワークス合同会社)