AIのリアリティ - AIの精度評価の重要性

【連載】

AIでどう変わる? 情シスの「シゴト」

【第3回】AIのリアリティ - AIの精度評価の重要性

[2017/03/17 08:00]野村直之 ブックマーク ブックマーク

  • ソリューション
  • AI

ソリューション

連載目次

前回「AIにまつわる大きな誤解を解きましょう」の最後に、次のように書きました。

けれども、開発コストの内訳を見れば、「設計、プログラミング」の工程が「データ収集、正解ラベル(タグ)の付与」の工程に置き換わり、大きな部分を占めるようになったことがわかります。

かつては科学的・数学的にアルゴリズムを組み立てられた部分が、半ばヤマ勘に近いかたちで、経験則に依存して正解データ作りの苦労をしなければならなくなったことを忘れてはならないのです。

上記を踏まえて用心するに越したことはありません。かといって、無用の不安に駆られ、「AIではビジネス目標の設定などできないのか? なら、(他社では使えても)うちでは導入できないな」などと早計に判断してしまうのも、みすみす競争力強化のチャンスを失うもったいない結果となるかもしれません。

技術にしても事業にしても、その成否を評価し、判断するには数値目標が必要です。手書文字認識などで、「やってみたら、結果99%の精度が出た」などのニュースはたまにありますが、いわゆる未来予測、技術ロードマップの類いで、数値目標を明記したものはめったに見ません。先の「99%」の意味、すなわち、「これで何ができるのか」「それは十分な精度なのか」「業務フローに組み込んで、経済合理性のある活用アイディアがあるのか」などが記された理性的な報道も寡聞にしてあまり見た記憶がありません。

長年、情報系のさまざまな研究分野の最新成果を見てきましたが、評価指標、特に精度を自ら適切に評価しようとしない分野(例えば「エンターテインメント」と言い切ってしまうなど)の研究は衰退します。改善されたか否かが評価できないのだから、当然でしょう。

これまでにも、人間の感覚や直観で捉えた品質(画質など)が良くなるとか、ほとんど同じ品質のままデータ量削減(圧縮)できたなど、評価が困難な研究分野もありました。これらの研究領域では、主観評価・官能評価が必要なため、評価がとても困難なこともあったと聞きます。

しかし、それを乗り越えるため、評価方法について深く、フェアに研究してライバル同士、意見交換やベンチマーク(評価)データの交換、共有を行うようにした分野では、足踏み状態から抜け出して、技術の進歩が再開します。

画像圧縮で有名な、古い少女のベンチマーク画像(このページの右上)を見るたびにこのことを思い出し、何十年と誠実に研究を積み重ねてきた先人の努力に頭の下がる思いがします。JPEG規格などがこのような努力の末に制定されたという経緯などは、一般ユーザーは忘れても構いません。しかし、我々、優れたITを吟味・選別し、効果的に採用を働きかける立場の者は、敬意を持って温故知新の努力を振り返ってみることも必要かと思います。

画像認識・分類の精度を評価する「再現率」と「適合率」

筆者も執筆に携わった英語の概念辞書「WordNet」をベースに構築された「ImageNet」は、5万人が6年間かけて1,370万枚の画像に正解タグ(写真に写っている物の名前)を付与し、事実上それを唯一の神羅万象の正解画像データベースとすることで、人類共通の、AIトレーニング資産となりました。それとともに、一定比率で、評価用の正解タグ付き画像を切り出すことで、標準ベンチマーク(評価)データも兼ねています。

2010年以降、このImageNetから1,000の物の名前を取り出して画像認識・分類コンテストの象徴となっている「ImageNet Large Scale Visual Recognition Competition (ILSVRC) 」では、世界中から競争者が現れ、年々目覚ましく精度が向上。人間も、キツネと猫を間違えたりするケースがあることを思うと、最近は「平均精度で人間を超えた」とする評価もあります。

このような健全に技術向上をもたらす評価指標(=精度)には、「再現率」と「適合率」の2種類があります。定義は明快です。図のように、本当の正解集合「A」に対して、システムが「正解(猫なら猫)」と出力したものの割合「H/A」が再現率。システムの出力全ての集合「S」に対して、本当の正解でもあった「H」の比率、「H/S」が適合率です。

適合率と再現率

狭い意味での「精度」とは、適合率のことです。「システムによる勇み足」「誤りの少なさ」などと言い換えてみると、直観的に意味を覚えやすいかと思います。同様に、再現率は「取りこぼしの少なさ」「カバレージ」と言い換えてみると腑に落ちることでしょう。

先のJPEG画像の品質評価と比べて、最近のディープラーニングによる何らかの認識タスク・分類タスクの評価は難しいでしょうか? 決してそんなことはなく、正解集合さえ定義できていれば、上述の適合率と再現率によって、綺麗に精度評価・比較評価をすることが可能です。

「最近流行のAIの評価は、他の技術に比べて、かなり容易である」という言い方をしても構わないでしょう。にもかかわらず、AI分野では、伝統的に少々奇をてらったような新規の研究テーマで、定性的な成果のみが強調され、センセーショナルな話題を打ち出そうとする傾向が否めないように思います。

少し長くなりましたので、次回、AI開発コストの主要部分を占めるようになった「正解データ作り」に焦点を当て、それが、ROI (Return of Investment) を左右することなどについて論じたいと思います。また、AIを組み込んだ新業務フローのなかで、人間がAIの出力をどのようにサポートしたり、最終判断したりするかによって目標精度が大きく変わることを、具体的な事例を見ながら解説していく予定です。

著者紹介

野村直之


野村直之 - メタデータ株式会社 代表取締役社長 理学博士

NEC中央研究所、MIT(マサチューセッツ工科大学)人工知能研究所、ジャストシステム、リコーなどを経て05年にメタデータを創業。人間がより人間らしい仕事に集中できるよう、深層学習などのAIを含む高度なアルゴリズム、データ分析ツールでホワイトカラーを支援する使命を果たすべく日々奮闘中。

連載目次

※ 本記事は掲載時点の情報であり、最新のものとは異なる場合がございます。予めご了承ください。

関連リンク

2546
2
【連載】AIでどう変わる? 情シスの「シゴト」 [3] AIのリアリティ - AIの精度評価の重要性
評価指標、特に精度を自ら適切に評価しようとしない分野の研究は衰退します。改善されたか否かが評価できないのですから、当然でしょう。今回は、AIの精度評価について解説します。
https://news.mynavi.jp/itsearch/assets_c/2017/03/AI03_001-thumb-400xauto-8988.jpg
評価指標、特に精度を自ら適切に評価しようとしない分野の研究は衰退します。改善されたか否かが評価できないのですから、当然でしょう。今回は、AIの精度評価について解説します。

会員登録(無料)

一覧はこちら

今注目のIT用語の意味を事典でチェック!

一覧はこちら

ページの先頭に戻る