AIでどう変わる? 情シスの「シゴト」(7) AI導入案件の具体的な進め方

前回記したように、AIを主体的に導入・活用する情報システム部門が、AIを導入したサービス全般のモデリングに貢献できれば、本当に喜ばしいと思います。ディープラーニングは、何らかの監視業務で「特異な状態」を検出するのに向いていることもあり、情シスが貢献できる可能性は大いにあると言えるでしょう。

これまでに解説してきたように、ディープラーニングを導入する場合、情シスにおいても目標精度（適合率、再現率）を定める必要があります。新しい業務フローが回る程度の精度なのか、そのAI構築にかかる「データ収集」「正解ラベル付けとトレーニング」「評価改良」への投入コストを上回る、コスト削減効果や売り上げ増などのメリットがあるかどうかを評価しなければなりません。ただし、ディープラーニングでは、実データを使って少しずつ実験していかないと、実際にそのような精度が出るかどうかを事前に予測することは困難です。

通常は全自動化、すなわち、画像認識や異常検知などの従来人手で行っていた作業を100%、AIに置き換えることはありません。医療向けの画像診断で最終的に医師が道具（AI）の出力情報を見て判断するのと同様、程度の差はあれ人間が最終チェックして判断し、責任を持つことになります。

とは言え、従来、全数をダブルチェックしていたところを1人の人間が一部をチェックするだけで済むようになれば、人件費は半分未満、時には何分の1にもなり、ROI(Return Of Investment)がプラスになる可能性が高まります。

「取り違え行列」を活用して業務フローを構想する

では実際、それを実現するには、ディープラーニングによってどのような判定を行えれば良いのでしょうか。

例として、第5回でご紹介した厚労科研費プロジェクトにおいて、最初期の3日間に数千枚のリンパ節の画像でディープラーニングのトレーニングを実施し、その後、新規のテストデータで精度評価した結果をご覧いただきましょう。ここでは、対象となる画像を「健常部分(healthy)」「腫瘍の部分(tumor)」「泡状の脂肪粒(bubble)」、そして何も映っていない「空白部分(White)」の4種類に分類しています。

ディープラーニングのトレーニング結果

上記のような表を「取り違え行列(Confusion Matrix)」と呼びます。対角線上にある「bubble→bubble」「healthy→healthy」「tumor→ tumor」「White→White」の値、つまり同じラベル（種類）のものが正しくそのラベルの画像だと認識される確率が最も高くなっており、トレーニングの結果として十分な精度が出ていることがわかります。

最も精度(accuracy)の低い「bubble→bubble」でも85.87%、その他については約98%以上と、比較的少ないデータ数のわりには非常に高い精度が出ていると言えます。

「bubble→healthy」の取り違え率は8/(644+8+98) = 1.0%と少ないですが、「bubble→White」の取り違えは98/(644+8+98) = 13.0%と高い値を示しています。この原因は、脂肪粒は、球状（平面上で円形）の輪郭が1つ映り込んでいる以外は、空白部分と大差ない外観のせいではないかと推測されます。とはいえ、腫瘍(tumor)ではない分類同士の取り違えには、実務上、問題はないため、85.87%という精度を無理に上げる必要はないでしょう。

一方、「健常」「空白」「脂肪粒」の画像を、AIが「腫瘍(tumor)」だと認識したものについてですが、仮にAIが腫瘍(tumor)だと認識した画像は人間の医師が全て確認するとすれば、問題ないでしょう。2次検査や精密検査に回った、と考えても良いわけです。「bubble→tumor」はゼロ、「White→tumor」もゼロ。「healthy→tumor」は14枚で、healthy全体の0.8%となっています。

実際には、これらの判定には確率値が付いています。「healthy→tumor」とされたなかから3枚を抜き出したのが以下の画像です。

healthyとして分類した結果をtumorと判断した画像

「48%」となった左端の画像はリンパ節の周縁部です。今後、このようなタイプのものは違う外観の「絵」として、通常とは別種の「healthy」に分類すれば良いでしょう。確率値も低いので、現状のままでも優先的に目視対象として選り分けることもできます。

確率値「80%」の中央の画像は、ややピンボケ気味となった結果、本来健常な細胞のクリアな画像がファジーに見え、腫瘍だと誤認されているようです。確率値80%以下のtumorを全数目視チェックするとすれば、ぎりぎりクリアできます。「99% tumor」と判定された右端の画像は、実際に腫瘍かもしれません。

おそらく一番深刻なのが、本当は腫瘍なのに、健常（もしくは脂肪粒）だと誤判定した77件(2.38%)です。先ほどと同様に、確率値の異なる3枚を抽出した画像を以下に示します。

tumorとして分類した結果をhealthyと判断した画像

共通する特徴は、入り組んだパイプのような毛細血管状の模様が写っていることです。誤判定を解消するには、こうした模様のパターンを含む画像、特に実際は腫瘍が含まれているものを切り出して別分類とし、再トレーニングするのが正攻法の解決策です。

これにより、このタイプの誤判定を1、2桁減らすことは可能だと思われます。さらに、「healthy」だと判定されたものについても、そのうちの数%～10数%は「tumor」であると認識し、各々の確率値に応じてさっと目視確認したり、熟視の対象としたりする、といった切り分けは十分可能です。これにより、トータルの作業工数削減や納期短縮が実現できるでしょう。

今回取り上げたのは医療分野の例ですが、製造物や製品の外観検査の場合、AIによる誤判定が許容範囲ならば、不良品と判定されたものは廃棄するという選択肢が生まれます。すなわち、誤判定によって生じる損失額よりも、厳密な検査をする場合にかかる人件費のほうが多いのであれば、「AIによる判定→不良品の廃棄」が新しい業務フローとして成立するわけです。

「精度」という、旧来のITではあまり議論にならなかった非機能要件(non-functional requirement)に取り組むには、研究者のような視点・アイデア・手法が必要になります。単純な場合分けや、AIだけでは問題解決できない部分に対し、人間が最終的に判定する際の切り口と条件、基準を精査・設定することで、ようやく生産性の向上を達成できるのです。

実際のAI導入の現場では、地道な研究者的な活動と、損益分岐点を常に意識する経営者・事業責任者のような思考が必要です。AI導入の可否を判断するためのガイドラインに、今回説明したようなアプローチは必須だと言ってよいでしょう。