ここだけは押さえておきたい！AIを有効活用するためのポイント(1) AI活用のキモ「学習データ」とは？

自動運転、医療、金融機関、翻訳などさまざまな分野において、毎日のようにAIに関連したサービスや実証実験が報じられています。その一方で、これ以上AIは発展しないのではないかという論調のニュースも見られます。

実際のところ、現時点のAI開発のレベルは世界的に見ても5年程前に科学者が期待していたよりも低いのが実情です。

AI開発が遅れている大きな要因の1つが、学習データの不足です。高品質なAI開発には高品質なデータのインプットが不可欠です。しかし、多くのAI開発企業にとって、品質で偏りのないデータを大量に収集して整理することは難しいと言われています。

AI開発の進化を妨げている学習データとはどのようなものなのか。今回はまだあまり知られていない「AIの学習データ」について解説します。

AIの「学習データ」とは

AI開発にはビッグデータが不可欠です。しかし、収集した段階のデータは意味を持っておらず、そのままの状態ではAIが認識することはできません。

AIがタスクを認識して作業・判断をするには、参考になる指標が必要です。そこで、データ一つ一つに人間が手作業で意味をタグ付けして、AIがインプットできる状態にする必要があります。つまり、AIの学習データとは、機械学習アルゴリズムが学習するために必要なデータのことなのです。

AIの学習データは、「インプット」した情報とインプットした情報が何を示しているかを表した「ラベル」のペアで構成されています。AIにどのようなタスクをこなすように期待するかによって、インプットさせる学習データの作成方法が異なります。以下、代表的なものをいくつか紹介しましょう。

画像認識の場合、インプットは画像、ラベルは「その画像が何を示しているか」となります。

画像認識におけるインプットとラベルの例

感情分析の場合、インプットはテキスト、ラベルは「インプットしたテキストがポジティブかネガティブか」になります。

感情分析におけるインプットとラベルの例

スパム検出の場合、インプットはメールやテキストメッセージなど、ラベルは「そのメッセージがスパムか否か」になります。

スパム検出におけるインプットとラベルの例

最後に、テキスト分類の場合、インプットはテキスト、ラベルは「インプットしたテキストが示すテーマ」になります。

テキスト分類におけるインプットとラベルの例

学習データはアルゴリズムが対象物を判読する際に参考にする指標になるため、インプットするデータの質を高めて量を増やすことで、アルゴリズムのパフォーマンスの精度と速さの向上を実現します。

より完璧な精度のAIを開発するには、この学習データを何度も何度も微調整する必要があり、何百回もの学習サイクルを経てAIを改良することが可能となるのです。

学習データは人間の学習と同じように考えるとわかりやすいでしょう。

例えば、オリンピック選手を育てるには、世界的に認められている一流のコーチの指導が求められ、また、難関大学に合格するには一流の教育が受けられる塾や家庭教師が必要です。

逆に、右も左もわからずスポーツの練習をしても、ページの半分抜け落ちた古い教科書を使って勉強しても望ましい結果は出ないでしょう。

同様に、AI開発においても高品質のデータがなければ、タスクをでたらめに実行することを学習してしまいます。

学習データの限界はアルゴリズムにも限界をもたらします。整備されていない学習データが100万件あるよりも、高品質なデータを100件取り込めるほうが、アルゴリズムのパフォーマンスは求めるゴールイメージに近くなるでしょう。

どのようなAIを開発する場合でも、用いるデータが強固な基盤となり、成功の可能性を高めると言えるのです。

高品質なAI学習データの作成方法

では、高品質な学習データはどのように作成すればいいのでしょうか。それは、とにかくデータの前処理（整理・追加・加工）をすることです。データが整理されていないと、AIモデルの構築にまでたどり着くことができません。このような「データの前処理」が、実はデータサイエンティストの仕事の8割を占めます。

例えば、飲食店の来客数予測をするAIを開発するとします。

過去の来客数を学習データにしてAIに取り込んでみると、ある期間だけ他の期間と比べて倍の来客数を予測するようになりました。

そのエラーを起こしていたであろう期間に関してさかのぼって調べてみると、限定的に来客キャンペーンを実施していたことが判明しました。

通常営業における来客予測を出したいのに、例外的な実績数値データがインプットされてしまい、予測精度が下がってしまったのです。

この場合、そのキャンペーンで来客につながった数値は、通常営業の数値とは別でカウントするように学習データ化し、再び来客数予測モデルを構築し、AIの精度を上げていくのが正しい作業です。

この地道な作業（ここでいう「キャンペーンに関するデータを加える」という作業）が「データの前処理」に当たります。

大量のデータを入力するだけでは、AIモデルに学習させることはできません。まずは、モデルがパターンを悟って推測できるようにデータの準備を行う必要があります。

AIモデルを効率的かつ効果的に学習させるには、機械に実行させるタスクに関連した正確なタグ付けが必要です。データはタグ付けをしてはじめて、意味を持ちます。このため、人間による大規模なタグ付けサービスがAI開発の成功の鍵を握っているのです。

著者プロフィール

チャーリー・ワルター

Lionbridge AIプロダクト＆グロース担当バイスプレジデント

ベルリン出身。イエール大学卒業。
サンフランシスコでKPCB Product Fellow、Uber（Uber Advanced Technologies Group）のプロダクトマネージャーを経て2017年にGengoへ参画。Gengoは2018年12月にLionbridgeに株式取得されました。