ディズニーも使い始めたGoogleのAIテクノロジー、何が凄い?

AIやMachine Learning(機械学習)はうちの会社に関係ない……なんて時代はもう過去のものになるかもしれない。米Googleが1月17日に公開した「Cloud AutoML Vision」は、データさえあれば素人でも機械学習の力を多分に活用できるサービスだ。

機械学習をさまざまなサービスに適用

これまでもGoogleは、一般ユーザー向けに「Googleフォト」や「Google翻訳」「Google Home」で機械学習、AIのパワーを提供してきた。例えば、Googleフォトに写真をアップロードすれば、クラウドが写真上の風景や人を自動で認識してさまざまなキーワード分類を行う。

「山」や「海」といった風景はもちろん、「犬」や「猫」といった動物も認識し、キーワードで検索しただけで関連度の高い写真をピックアップできる。特に性能の高さを示しているのが人間の顔の抽出機能だ。同一人物の写真が複数枚ある場合、服装やメガネの有無があっても個々人の顔を認識してグループ化してくれる。

Googleフォトは、単に同じ顔をグループ化するのではなく、例えば成長による顔の変化なども捉える。写真は筆者の犬のグループ化例

筆者もGoogleフォトを利用しているが、100人を遥かに超える顔がグループ化して表示されている。その精度は驚くべきもので、有人・知人はもちろん、社内の人間、そしてたまたま写り込んだ人までもがグループ化されている。100%同じ人を抽出できるとまではいかず、顔の雰囲気が近い人を誤ってグループ化しているケースも少なくないが、実用レベルという意味では十分な精度という印象だ。

こうした技術を企業が自社製品・サービスへ応用するにはこれまで、TensorFlowなどの機械学習のライブラリを活用してカスタマイズしたアルゴリズムを用いるか、Googleフォトと同等レベルの学習済みモデルを利用できるGoogle CloudのAPI「Cloud Vision API」を利用するほかなかった。なお、競合では米MicrosoftがAzureで「Computer Vision API」、米AWSが「Amazon Rekognition」が同様の機能を提供している。

AIファーストのGoogle

では、なぜTensorFlowやCloud Vision APIではダメなのか。

TensorFlowはGoogleがオープン化したライブラリで、前述のGoogleフォトやGoogle翻訳、Google Homeにおける音声認識などさまざまな製品の根幹をなすものとして作られた。つまり、これを用いれば誰もがGoogleレベルのテクノロジーを使える……というわけではない。

これはあくまでライブラリであって、あくまで計算を走らせるためのベースであり、ニューラルネットワークや最適化するための数学知識を持たざるものにとってはまったく"使えない"もの。言うなれば「レクサスの主要パーツはここにすべて揃ってるから、あなたは高級車に乗れる」と言ってるようなものであり、そこにあるのは無用の長物と化したパーツ群だけだ。

一方のCloud Vision APIは、自社製品・サービスに機械学習の力を確かに活用できる。ただしそれは写真を「山です」「海です」という判定を出すものに過ぎず、例えば「車の車種を特定したい」「コートのブランドを特定したい」といった専門性の高いニーズに応えられない。

そうした需要を満たすにはTensorFlowが必要だが、やはり、ディープラーニングの専門家という"エンジニア"が必要になる。そこでこうした課題を解決すべく登場したのがCloud AutoML Visionだ。このサービスでは、ユーザーが求めるサービスレベルに合わせた学習が可能になるうえ、高度なエンジニアも必要としない。

Google Cloud マシンラーニングスペシャリスト大薮勇輝氏は「GoogleとしてAIファーストを掲げる中で、さまざまな製品でAIを利用する一方、一般企業では使えていない状況にあった。AIファーストと共に掲げるのが『AIの民主化』。さまざまな企業や開発者がAIをスピーディー、かつ便利に使えるようにしたい」と話す。

Google Cloud マシンラーニングスペシャリスト大薮勇輝氏

TensorFlowでは、データの前処理(画像と正確なタグ付けラベル)から機械学習モデルのデザインと最適化、性能評価、デプロイ、アップデートというさまざまな工程が必要で、高精度なモデル構築を必要とする場合は「長いもので1年かかる」(大薮氏)ケースもあった。一方のAutoML Visionではデータの前処理とトレーニング、性能評価の工程に限られるため、データ量によっては1日で高精度なモデル構築が可能になる。

Learning2learnや転移学習、ハイパーパラメータチューニングといった自動学習機能を応用したもので、クラウドが自ら改善を繰り返した最適解を見出す。Googleのディープラーニングと言えば、世界最強の囲碁棋士を破った「AlphaGo」でも有名だが、最新世代のAlphaGo Zeroでは自己対戦を490万回も繰り返し、既存のAlphaGoに圧勝した。必ずしも同じテクノロジーを採用したわけではないが、このような改善のアプローチを応用した信頼性の高さは商用利用レベルといっても良いだろう。