AIでどう変わる? 情シスの「シゴト」(4) 正しいAI開発アプローチとは?

前回は、AI(人工知能)のビジネス応用で、目標自体の設定の次に重要な、要求精度（適合率と再現率）について説明しました。要求精度（必要精度）が少し違うだけで何倍も、時には何桁も、AIシステムの開発コストが変わることがあり得ます。

しかも、ただデータを増やしただけでは、かえって精度が下がるケースもあります。また、ディープラーニングに識別させるデータの分類基準や分類自体を試行錯誤しながら、何度もやり直さなければならないことも、ままあります。

そして、これらの作業に関しては、実際に現場のデータで試してみないと、精度が良くなるか悪くなるのか、あとどれだけ試行錯誤すべきなのか、事前にはわからないことが多いのです。トレーニング所要時間の理論的根拠も、限られたケース以外では未解明であり、現在のAI応用システムの開発が、AI職人の経験則やノウハウに依存している部分が大きいと言われるゆえんです。

分類・識別する対象データを実際に「かじって」みないと、大抵は、そのAIシステムの大まかな開発コストもわかりません。そのため、もし、小規模データによる実験を費用をかけて請け負うことなく見積もりが出てきたら、そのAI開発業者は、実際よりかなり多めの予算を要求している可能性があります。十分注意すべきでしょう。目標精度（適合率と再現率）を顧客と議論しようとしない業者も、全く同じ理由で要注意です。過大な利益が出る可能性を留保していることでしょう。

比較的少量のサンプルデータを提供し、本番システムの1/10程度かそれ以下の予算で、試験トレーニングと、それに基づく目標精度の実現可能性を、深層学習のプロとして極力正確に見積もってもらう。このようにフィジビリティスタディ（実行可能性調査）をAI開発業者と共同で行い、事業計画に基づいてROI(Return Of Investment)を推計するのが、正しいAI開発アプローチだと言えるでしょう。

目標精度数値が大きく異なる3つの事例

ここで、十分なROIを確保するために、課題・テーマによっていかに目標精度が異なってくるか、具体的に見ていきましょう。下図は、最近筆者の講演で必ず強調している、「AI（特にディープラーニング）応用で極めて重要な精度目標値」のスライドです。

AI（特にディープラーニング）応用で極めて重要な精度目標値

副題に大きな字で「対話ロボット等も、どの目的、局面で、精度がどれだけ必要か要求段階から数値評価を! 」としているのは、「正しく文脈を捉え、オリジナルかつ臨機応変な回答ができた比率などを適合率・再現率の面から厳しく評価すべし」というメッセージを込めています。

図では、「車載カメラ」「日本語OCR」「がん検出（診断支援）」の3つの事例を挙げ、十分なROIが期待できる目安となる目標精度をおおまかに記しています。

車載カメラ画像の場合、従来人間がやっていた業務は、何百時間も動画を視聴し、危険運転をしている数カ所、各5～10秒ほどのシーンを抽出することでした。その目的は、本人に動かぬ証拠を突き付けて自覚を促したり、他山の石とすべく多くの運転手で観る教材を作ったりすることです。

そのため、例えば600時間中、10カ所ほど危険シーンが実際にあったとして、その全部を網羅する必要は全くありません。「本当の正解(A)」の半分もカバーしていれば、十分に良い教材が作れます。そして、「システムの出力(S)」のうち、半分ほどが「典型的な危険シーンである」と人間に判断できれば十分なのです。各シーンが30秒ずつと長めだったとしても、600時間見なければならなかったのが、30x10 = 300秒、すなわち、5分眺めて「危険」「安全」と半々に選り分ければよくなります。

こうすることで、人間の作業時間は72分の1に激減し、莫大な人件費の節減になります。「適合率P」「再現率R」ともに50%程度で、大いに実用に堪える「美味しい案件」であると言えるでしょう。

日本語OCRの場合、図中に示したように、精度（適合率）が「たったの99.5%」しかないと、例えば「ソフトバンク→ソフトパンク」のようになかなか誤認識に気づきにくい誤りが、1ページ中に10カ所程度発生することがあります。これを人間が何回見直せば確実にパスできる認識結果になるのかは、何とも保障のしようがありません。

そして、1ページの文字の再入力にかかるコストなど、数百円以下でしょう。OCRソフトにかけるためのスキャナの取り出しや設定なども考えたら、やはり精度（適合率）が「たったの99.5%」では、ROIが赤字になってしまいます。これが、日本語OCRがビジネスの現場で広範に活用されない最大の理由でしょう。

「文字列検索ができれば良い」という「ダメ元」な文字認識は、PDFの埋め込み文字列などで利用者が徐々に増えているとは思いますが、元画像をいきなり捨てるという運用ができている現場はごく少ないと思われます。

例3に挙げた「がん検出（診断支援）」については、メタデータ社で筆者がリードしている、厚労科研費プロジェクトで始まったばかりの現在進行形のものです。こちらについては、また稿を改めてご紹介できれば、と思います。