マシンラーニング(機械学習)・ディープラーニング(深層学習)による画像解析の応用が国内でも進んでいる。

しかし、ビジネスの事例としては、工場での検品や、ECサイトの画像検索、ドローンを活用した建造物の劣化調査など、よく耳にする類の取り組みがほとんど。まだまだ各企業による模索が続いている状況だ。

そうした中、日本コカ・コーラが新たな試みをはじめた。SNSに投稿された膨大な画像から、炭酸飲料のコカ・コーラと親和性の高いシーンをディープラーニングにより判別して消費者理解を進めるというもの。

Google Vison APIの活用事例として、日本コカ・コーラ 経営戦略部門 ナレッジ アンド インサイツ ディレクターの小林 康二氏が、グーグルのメディアセミナーで紹介したので簡単にご紹介する。

日本コカ・コーラ 経営戦略部門 ナレッジ アンド インサイツ ディレクター 小林 康二氏

消費者インサイトを深めるために

日本コカ・コーラのマーケティングは特徴的だ。

重視している概念の一つに「消費者インサイト」がある。各商品がどういったシーン、どういった心境で飲用されたのかなどを調べ、「消費モーメント」として定義。効果的な消費モーメントを選定し、そこにマッチするような商品訴求を心掛けているという。

例えば、TVでも放映している綾瀬はるかさん出演のCMには、同社が「スクリーンタイム」と呼ぶ消費モーメントを意識したものが多い。スクリーンでTV番組や映画などを鑑賞している状況でコカ・コーラを愛飲してもらうねらいだ。

小林氏が所属するナレッジ アンド インサイツ(Knowledge & Insights)では、そうした消費インサイトを得るための活動を展開する。

「”消費者中心主義”に基づくマーケティングを実践することで、競争優位をもらたす文化を創りあげ、ビジネスの成長を加速させること」というミッションを掲げて消費者理解を進めている。

ナレッジ アンド インサイツのミッション

これまではインタビューやアンケートを実施し、その回答から飲用シーンや心理を特定してきたが、今回はSNS利用者の普段の投稿画像からバイアスなしの情報を抽出しようという新たな試みだ。

Facebookはスーツ、Instagramはおしゃれ着、Twitterは寝間着

今回の施策は、抽出対象のプラットフォーム選びからはじまった。

候補に挙がったのは、Facebook、Instagram、Twitter。それぞれの特徴を正しく把握するために、これらを利用する中心的な世代に、各プラットフォームを服に例えてもらった。

「Facebookはスーツ、Instagramは(カジュアルな)おしゃれ着、Twitterは寝間着という回答でした。Facebookは上司の投稿にヨイショするなどビジネス要素が強い、Instagramは写真映えを気にして細部にもこだわるおしゃれなイメージ、Twitterは帰宅後にソファで横になって投稿するような使い方、というのが理由でした」(小林氏)

Facebook、Instagram、Twitterを服に例えると……

調査はコカ・コーラの飲用に関する実態調査が目的のため、本音の投稿が多いTwitterを選択した。

Cloud Vision APIでコカ・コーラの飲用シーンを自動タグ付け

画像収集・選別は、Cloud Vision APIをベースに開発したブレインパッドの「Crimson Hexagon ForSight」を使用した。

Twitterの3年分の投稿の中からCoca-Colaのロゴが入った画像をで判定して自動収集。約7万枚が集まった。

その中から、自動販売機やグッズ、イベントのスポンサーロゴなどの画像を排除した結果、実際に飲用しているシーンは約4万枚に絞られた。

さらにそれらの画像に対して、Cloud Vision APIの「ラベル検出(LABEL_DETECTION)」機能を使ってラベルを付与。一緒に写っているものや、写真のシーン(食事等)などの情報をテキスト化した。

Cloud Vision APIによるラベル付与

「考えなければならなかったのは、タグが、上位下位やグルーピングの概念なく、横一線に付与される点。人間の使う言語は、自然>森>木といったかたちで階層的な構造を持つのため、同じように整理しなければ分析が進められない。そこで、階層クラスタリング、共起ネットワークなど、データサイエンスの分析手法で改めて整理しました」

自動付与のラベルには階層構造がない

抽出されたラベルは約2000種類。「ポップコーン」や「ピザ」、「夏の海」など、想定どおりのシーンが多かった一方で、「ペット」や「山登り」など、想定外のシーンも抽出されたという。

最後は人間がシーンを判断

ここまでがディープラーニングによる分析だが、消費者インサイトという観点ではもう少し深掘りが必要だった。

「例えば、ポップコーンと一緒にコカ・コーラが写っていたとして、タグだけを見ると、単におやつとして飲み食いしたように捉えられますが、ポップコーン1箱にコカ・コーラが2個、それに映画の半券が写っていて、場内が暗闇でなければ、『デートで映画を見に来ていて上演前のワクワクした気分にあるのでは』ということが推察できます」

人間が見れば、上映前の映画館に2人で来ているとわかるが……

上記のような例では、人間が見れば、「映画」や「デート」といったタグも付与することができる。そういった部分を補完する必要があったという。

最終的にはマンパワーによる背景心理の理解を進め、約50の消費モーメントを発見するに至った。

「数千億の投稿からCoca-Colaロゴの入った飲料画像を4万枚抽出するのは人間にはできません。大量の情報を整理するのはAIにお任せするしかない。一方で、写真の背景を理解するなどの高度な推察は、まだまだ人間の方が得意。そこは補完してあげなければなりません」

今回の取り組みでAIの得意・不得意を理解できたと小林氏。「更なる消費者インサイト創出を目指して先端技術の活用を進めていく」と取り組みを継続することを明かした。