ビッグデータとHadoop(1) 改めてビッグデータとは?

情報抽出とソーシャルメディア

最近よく耳にするビッグデータとは、どのようなものなのでしょうか?

一般に、ビッグデータは、Volume(データの量)、Variety(データの種類)、Velocity(データの生成あるいは更新頻度)の頭文字を取り「3V」と定義されることが多いようです。しかし、これはデータの特徴を述べているだけで、「ビッグデータが話題になっている理由」が分からない方も多いと思います。そもそも昔からデータ自体はあるのに何が違うのでしょうか。

その理由の1つに、「従来よりデータが入手し易く、それらのデータが使い易くなってきた」ことがあります。

データが貯められると、次の関心はその使い方に移ります。つまり、データもお金と同様に、貯められるだけでなく使われる日がやってきます。その使い方の一つに、将来予測があります。データは何らかの事象から生じているので、その事象の原因を突き止めることで今後の予測も立てやすくなります。

例えば、お店は売り上げデータから、売り上げ向上のために、「平日の朝は会社で食べるお菓子、夜は夜食の弁当を購入し、週末は自宅で楽しむビールとつまみを購入する」と把握したお客の購入動機やニーズに基づいて予測を行い、それに合わせて商品を取り揃えます。さらに売り上げデータだけでなく、お店での行動パターンや気象データを併用すると、「雨が降ると店内滞在時間と立ち読みの時間も長くなり、その結果雑誌の購入確率は落ちるが、他の商品の購入確率は上がり、トータルの購入金額は高くなる」と、より詳しくお客の事を知ることができ、売り上げ予測の精度も高くなります。

さらに売り上げデータだけでなく、お店での行動パターンや気象データを併用すると、「雨が降ると店内滞在時間と立ち読みの時間も長くなり、その結果雑誌の購入確率は落ちるが、他の商品の購入確率は上がり、トータルの購入金額は高くなる」と、より詳しくお客の事を知ることができ、売り上げ予測の精度も高くなります。

ビックデータが話題になる理由には、単にデータの量と種類が増えただけでなく、そこから抽出した情報の質と、それに基づく予測の精度が飛躍的に向上したことが大きな理由の一つです。実際、こうした情報のビジネスへの適用可能性やその機会が広がっており、成功事例を耳にすることも多いと思います。それに習い、ビックデータからの情報抽出とそのビジネス適用への期待が高まります。が、いざ、既存のアプローチ、あるいはアプリケーションで、データを蓄積及び処理をしようとした場合、先の3Vをクリアする必要が出てきたといえます。

ビックデータの定義は相対的なものであり、どのデータが該当するかを定義するのは難しいのですが、ソーシャルメディアはユーザ数と利用機会も多く、以下の理由からビックデータを生成し、入手し易いこともあり着目されています。

情報・共有の多様化

マスメディアに対し、ソーシャルメディアは個人ベースであり、情報発信のソース数も多く、種類も多岐に渡ります。人というフィルタを通した情報、個人が世の中で起きている事に対するセンサの役割を担っていますので、ネットを使う人の数だけ存在するようになると考えられます。ソーシャルメディア内で友人関係、ニュース、情報、アイデア、そして、コンテンツ(写真、動画や音声など)を共有しているため、従来のメディアよりも多種多様な情報にアクセスすることが可能です。

情報発信及び情報収集の低コスト化
ソーシャルメディアを使うことでマスメディアよりも低コストで大多数のユーザへの情報発信及び情報収集が可能になります。またソーシャルメディアはマスメディアよりも介在するチャンネルや人が少ないため、情報伝達の遅延が生じ難く、一連の情報発信プロセスやその効果測定がほぼリアルタイムに実行可能となります。

アクセスチャンネルの多様化
ソーシャルメディア上で他ユーザに影響力のあるユーザが特定の商品をレビューした場合、その商品の購入が喚起されることがあります。つまり、商品が早期に認知される確率が上がるだけでなく、取り扱いのあるECサイトへの誘導が期待されます。いわば、影響力のあるユーザは新たな広告媒体だけでなくECサイトの広告代理店の役割を担っています。

ここまで分かる消費者行動

実際に、ソーシャルメディアからどんな情報が取得可能で、どのような価値を持っているのでしょうか?　ここで、ソーシャルメディアデータを使って、普段の生活でありそうな具体例を見てみましょう。

例:幹事が美味しい店を探す場合
十数年前、今ほどソーシャルメディアデータの種類もユーザも少なかった時代は、一部の消費者の声しか取得できませんでした。

表1:当時のお店情報発信の手段

とあるお店の感想	情報発信の手段	Webで検索できる可能性
ユーザA:まずい!	友人への口コミ	低い
ユーザB:おいしくない!	友人への愚痴	低い
ユーザC:高い!	ブログ	高い
ユーザD:遠い!	何もせず	低い
ユーザE:おいしゅうございます!	雑誌への記事掲載	Webにあれば高い

その理由は、今ほど簡単に個人がWeb上で情報発信をすることができず、リアルの世界からマッピングされる情報は表1のように偏っている場合があります。そのようなデータの集合であるWebを使ってお店の情報を検索した場合、ポジティブな評価の方が多くなります。しかし、その評価が信用できるのかどうか分かりませんでした。

ところが携帯端末の普及やソーシャルメディア等の登場で、個人の情報発信が容易になり、多くのユーザ、今まで表に出てきにくかったユーザA～Dの感想までもが入手できるようになりました。さきほどの表現を使うと、マッピングが進んだ結果、消費者のサンプリングが容易になっただけでなく、リアルの世界の実態(表1の例ではネガティブ)に近いものになりました。これは取得可能な情報の深化ともいえます。10数年前にWebで情報発信をしていたユーザと、現在ソーシャルメディアで情報発信をしているユーザ数を比較すると、マッピングが進んでいることがわかると思います。

例えば、以下のサイトではアメリカでは映画の興行成績とレビューサイトでの評価に高い相関があることが報告されています。

Why We Need Movie Reviewers

また、昨年は日本のアイドルグループの総選挙の結果(選抜メンバー16人中15人)をソーシャルメディアを使って的中させたニュースを覚えている方も多いと思います。

さらに、消費行動の後になるレビューだけでなく、消費行動の前である意思決定(購入に至るまでのアクション)やその情報源さえも収集できるようになりつつあり、取得可能な情報が多様化しています。図1にそれらのデータからユーザの心理プロセスを明らかにする我々が提案するモデル「愛だろ」を示します。

図1．ビッグデータから「愛だろ」モデルによるユーザの心理プロセスの解明

その結果、個人ベースでの消費者行動は勿論、コミュニティでの意思決定を追跡することが可能であり、ビジネスの分野でも注目されています。例えば、次のような調査結果が報告されています。

Private traits and attributes are predictable from digital records of human behavior

つまり、ビッグデータにはこれまで取得できなかった(難しかった)データが含まれるだけでなく、その中には役立つ情報が含まれていることが期待できます。

これがサンプリングの対象として信頼性が上がったということです。一方で、データの種類や更新頻度そして量も従来より増えているため、情報抽出の技術も対応が求められます。

データマイニング、テキストマイニング、そして機械学習

ビッグデータには「データの中にはビジネスに役立つ情報がある」と書きましたが、「どこかで聞いたような・・・」と感想を持たれる方も多いと思います。事実、アカデミックやBI/BAの分野では昔からこれらのデータに対して取り組んできました。

データマイニング
データから(有益な/興味深い)パターンを発見するアルゴリズムと関連技術を含みます。発見するパターンには、次のようなものがあります。

・購入履歴から優良顧客とその購入傾向の抽出
・クレジットカード利用状況から不正利用のパターン抽出
・Web上のリンク情報を使ったページの重要度
・Webのアクセス履歴からユーザの行動パターン抽出
・メールの送受履歴からコミュニティ抽出

テキストマイニング
データマイニングがデータ一般を対象とするのに対し、テキストマイニングはテキストを対象とし、自然言語処理の技術を組み合わせて、テキストから知識発見を行う技術です。例えば、商品、ホテルやレストランのレビュー記事から商品毎の機能/性能/項目や対応評価の抽出があります。また、前出のWebのアクセス履歴に加えて、アクセスしたWebのテキスト本文も同時に使うと、テキストの内容とアクセス頻度の相関が分かります。画像とそのメタデータを使うと、画像特徴量とメタデータの関係も抽出できます。

機械学習
機械学習は文字通り人手をほとんど介さず、機械(コンピュータ)に自動的に学習させる技術です。これは上記のデータ及びテキストマイニングとセットあるいはその手段で使われることがあります。例えば、クラスタリング、予測、テキスト分類や自動翻訳などがあります。機械学習については最終回でも簡単に振り返ります。

これらの手法を使えば十分に見え、一部はBI/BAなどの製品にも組み込まれています。図1の「愛だろ」モデルもこれらの手法を組み込んでいます。一方で、データの3Vと共に、ハードの進化が追いつかない、想定外のデータが出てくる、データの欠損値が多い、カスタマイズが難しいなどの問題が出てきます。

分散処理技術の民主化

データマイニング、テキストマイニング及び機械学習の適用事例が増えていますが、大規模データに対してはスケールしない(計算時間がかかる)あるいは実装が難しいという問題を解決する必要があります。とりわけ機械学習の多くのアルゴリズムは反復処理や多くのメモリを必要とし(計算コストが高い)ため、処理能力がマシンのスペックに制限を受けます。

これらの問題に対し、近年はHadoopのMapRededuceフレームワークでの実装、あるいは人気のある手法やアルゴリズムはMahout等でライブラリが整備されています。その結果、これらの分析手法が研究者だけでなく一般の人にも使い易くなってきました。ビッグデータがここまで注目を集めるようになったのは、データマイニングに必要なデータの入手や実行環境が整ってきたことがあります。

次回は、そのHadoopの概要についてみてみましょう。