ディープラーニングの規模、データ数、画像処理技術の3つが勝因

―― 今回、ISBIチャレンジ2017に参加した経緯から聞かせてください。

カシオ計算機 浜田玲氏

カシオ・浜田氏 : このコンテストは昨年(2016年)が第1回で、今年(2017年)は第2回です。内容は似ており、テストデータなどは公開されているんです。

これに興味を持った松永が、自分たちがトライしたらどういうスコアが出るか試したところ、かなり良い成績が出ました。いけるのではないかと、チャレンジすることにしたのです。

カシオはダーモスコピーの学習ツール「D'z IMAGE」(旧CeMDS)の開発、運営を通じて、信州大学さんはもちろん、多くの皮膚科の先生方に協力していただいております。今回も、信州大学の古賀先生と皆川先生に大きなご協力をいただいた次第です。

―― 先生方とはどのような役割分担になっていたんですか?

カシオ・浜田氏 : ディープラーニングやデータ処理はカシオが行い、学習用のデータの精査と検証を先生方にお願いしました。学習のために、追加で約1,400枚ほど用意した症例画像もチェックしてもらいました。

信州大学医学部皮膚科学教室
古賀弘志講師

古賀講師 : 基本的に怪しいものをカシオさんにスクリーニングしてもらってからチェックしたので、すべて見たわけではありません。

それでも、学習用に提供されるトレーニングデータや、途中確認用のバリデーションデータにも、疾患名が間違っているケースがありました。数としてはほんの少しですが。

―― 今回、勝利した要因は何でしょう。

カシオ・松永氏 : 大きく3つあると考えています。

1つはディープラーニングの規模です。ディープラーニングは識別器を組み合わせるアンサンブルの規模がどのくらい必要か、きちんと実験して地道に検証していく必要があります。

もう1つは学習のためのデータの数です。データが多ければ多いほど精度を高められますが、一方でアンサンブルの規模とのバランスも重要なので、規模とデータの両方が上手く集まった点が良かったところです。

カシオ計算機 松永和久氏

機械学習に掛ける前に、症例画像を補整することで、人工知能の学習精度を高めた

データに関しては正確さも重要です。ディープラーニングでは学習のためのデータに間違いがあると、人工知能の学習精度が下がってしまいます。その点で、医療の専門家の精査が受けられたのは、我々のチームにとって大きなアドバンテージになりました。

カシオ・浜田氏 : 古賀先生がおっしゃっていましたが、学習用の症例画像の中に、他の参加者が気付いていない疾患名の誤りがありました。それに我々は気付けたので、少し学習精度を稼げました。

信州大学医学部皮膚科学教室
皆川茜助教

皆川助教 : 今回の場合、結局は人の目、医者の目にどう近づけるかがゴールになってくるので、私たちの目線が多少なりともプラスに働いたのではないかと思います。

カシオ・松永氏 : 最後の3つめは、症例画像を人工知能に入力する前に、補整したことです。ここで、カシオがデジタルカメラ事業で培ってきた、画像処理技術が生きました。

ホワイトバランスや明るさなど、同じ照明環境で撮影したかのように補整してから学習に利用すると、学習結果に影響してしまう余計な情報、つまりノイズを減らせます。人間の目と脳は、そうしたズレを自動的に修正して同じものと認識できるのですが、機械学習はそうではありません。基本的に、与えた情報を素直に学習します。