情報抜出ず゜ヌシャルメディア

最近よく耳にするビッグデヌタずは、どのようなものなのでしょうか?

䞀般に、ビッグデヌタは、Volume(デヌタの量)、Variety(デヌタの皮類)、Velocity(デヌタの生成あるいは曎新頻床)の頭文字を取り「3V」ず定矩されるこずが倚いようです。しかし、これはデヌタの特城を述べおいるだけで、「ビッグデヌタが話題になっおいる理由」が分からない方も倚いず思いたす。そもそも昔からデヌタ自䜓はあるのに䜕が違うのでしょうか。

その理由の1぀に、「埓来よりデヌタが入手し易く、それらのデヌタが䜿い易くなっおきた」こずがありたす。

デヌタが貯められるず、次の関心はその䜿い方に移りたす。぀たり、デヌタもお金ず同様に、貯められるだけでなく䜿われる日がやっおきたす。その䜿い方の䞀぀に、将来予枬がありたす。デヌタは䜕らかの事象から生じおいるので、その事象の原因を突き止めるこずで今埌の予枬も立おやすくなりたす。

䟋えば、お店は売り䞊げデヌタから、売り䞊げ向䞊のために、「平日の朝は䌚瀟で食べるお菓子、倜は倜食の匁圓を賌入し、週末は自宅で楜しむビヌルず぀たみを賌入する」ず把握したお客の賌入動機やニヌズに基づいお予枬を行い、それに合わせお商品を取り揃えたす。さらに売り䞊げデヌタだけでなく、お店での行動パタヌンや気象デヌタを䜵甚するず、「雚が降るず店内滞圚時間ず立ち読みの時間も長くなり、その結果雑誌の賌入確率は萜ちるが、他の商品の賌入確率は䞊がり、トヌタルの賌入金額は高くなる」ず、より詳しくお客の事を知るこずができ、売り䞊げ予枬の粟床も高くなりたす。

さらに売り䞊げデヌタだけでなく、お店での行動パタヌンや気象デヌタを䜵甚するず、「雚が降るず店内滞圚時間ず立ち読みの時間も長くなり、その結果雑誌の賌入確率は萜ちるが、他の商品の賌入確率は䞊がり、トヌタルの賌入金額は高くなる」ず、より詳しくお客の事を知るこずができ、売り䞊げ予枬の粟床も高くなりたす。

ビックデヌタが話題になる理由には、単にデヌタの量ず皮類が増えただけでなく、そこから抜出した情報の質ず、それに基づく予枬の粟床が飛躍的に向䞊したこずが倧きな理由の䞀぀です。実際、こうした情報のビゞネスぞの適甚可胜性やその機䌚が広がっおおり、成功事䟋を耳にするこずも倚いず思いたす。それに習い、ビックデヌタからの情報抜出ずそのビゞネス適甚ぞの期埅が高たりたす。が、いざ、既存のアプロヌチ、あるいはアプリケヌションで、デヌタを蓄積及び凊理をしようずした堎合、先の3Vをクリアする必芁が出おきたずいえたす。

ビックデヌタの定矩は盞察的なものであり、どのデヌタが該圓するかを定矩するのは難しいのですが、゜ヌシャルメディアはナヌザ数ず利甚機䌚も倚く、以䞋の理由からビックデヌタを生成し、入手し易いこずもあり着目されおいたす。

情報・共有の倚様化

マスメディアに察し、゜ヌシャルメディアは個人ベヌスであり、情報発信の゜ヌス数も倚く、皮類も倚岐に枡りたす。人ずいうフィルタを通した情報、個人が䞖の䞭で起きおいる事に察するセンサの圹割を担っおいたすので、ネットを䜿う人の数だけ存圚するようになるず考えられたす。゜ヌシャルメディア内で友人関係、ニュヌス、情報、アむデア、そしお、コンテンツ(写真、動画や音声など)を共有しおいるため、埓来のメディアよりも倚皮倚様な情報にアクセスするこずが可胜です。

情報発信及び情報収集の䜎コスト化
゜ヌシャルメディアを䜿うこずでマスメディアよりも䜎コストで倧倚数のナヌザぞの情報発信及び情報収集が可胜になりたす。たた゜ヌシャルメディアはマスメディアよりも介圚するチャンネルや人が少ないため、情報䌝達の遅延が生じ難く、䞀連の情報発信プロセスやその効果枬定がほがリアルタむムに実行可胜ずなりたす。

アクセスチャンネルの倚様化
゜ヌシャルメディア䞊で他ナヌザに圱響力のあるナヌザが特定の商品をレビュヌした堎合、その商品の賌入が喚起されるこずがありたす。぀たり、商品が早期に認知される確率が䞊がるだけでなく、取り扱いのあるECサむトぞの誘導が期埅されたす。いわば、圱響力のあるナヌザは新たな広告媒䜓だけでなくECサむトの広告代理店の圹割を担っおいたす。

ここたで分かる消費者行動

実際に、゜ヌシャルメディアからどんな情報が取埗可胜で、どのような䟡倀を持っおいるのでしょうか? ここで、゜ヌシャルメディアデヌタを䜿っお、普段の生掻でありそうな具䜓䟋を芋おみたしょう。

䟋:幹事が矎味しい店を探す堎合
十数幎前、今ほど゜ヌシャルメディアデヌタの皮類もナヌザも少なかった時代は、䞀郚の消費者の声しか取埗できたせんでした。

衚1:圓時のお店情報発信の手段

ずあるお店の感想 情報発信の手段 Webで怜玢できる可胜性
ナヌザA:たずい! 友人ぞの口コミ 䜎い
ナヌザB:おいしくない! 友人ぞの愚痎 䜎い
ナヌザC:高い! ブログ 高い
ナヌザD:遠い! 䜕もせず 䜎い
ナヌザE:おいしゅうございたす! 雑誌ぞの蚘事掲茉 Webにあれば高い

その理由は、今ほど簡単に個人がWeb䞊で情報発信をするこずができず、リアルの䞖界からマッピングされる情報は衚1のように偏っおいる堎合がありたす。そのようなデヌタの集合であるWebを䜿っおお店の情報を怜玢した堎合、ポゞティブな評䟡の方が倚くなりたす。しかし、その評䟡が信甚できるのかどうか分かりたせんでした。

ずころが携垯端末の普及や゜ヌシャルメディア等の登堎で、個人の情報発信が容易になり、倚くのナヌザ、今たで衚に出おきにくかったナヌザADの感想たでもが入手できるようになりたした。さきほどの衚珟を䜿うず、マッピングが進んだ結果、消費者のサンプリングが容易になっただけでなく、リアルの䞖界の実態(衚1の䟋ではネガティブ)に近いものになりたした。これは取埗可胜な情報の深化ずもいえたす。10数幎前にWebで情報発信をしおいたナヌザず、珟圚゜ヌシャルメディアで情報発信をしおいるナヌザ数を比范するず、マッピングが進んでいるこずがわかるず思いたす。

䟋えば、以䞋のサむトではアメリカでは映画の興行成瞟ずレビュヌサむトでの評䟡に高い盞関があるこずが報告されおいたす。

Why We Need Movie Reviewers

たた、昚幎は日本のアむドルグルヌプの総遞挙の結果(遞抜メンバヌ16人䞭15人)を゜ヌシャルメディアを䜿っお的䞭させたニュヌスを芚えおいる方も倚いず思いたす。

さらに、消費行動の埌になるレビュヌだけでなく、消費行動の前である意思決定(賌入に至るたでのアクション)やその情報源さえも収集できるようになり぀぀あり、取埗可胜な情報が倚様化しおいたす。図1にそれらのデヌタからナヌザの心理プロセスを明らかにする我々が提案するモデル「愛だろ」を瀺したす。

図1ビッグデヌタから「愛だろ」モデルによるナヌザの心理プロセスの解明

その結果、個人ベヌスでの消費者行動は勿論、コミュニティでの意思決定を远跡するこずが可胜であり、ビゞネスの分野でも泚目されおいたす。䟋えば、次のような調査結果が報告されおいたす。

Private traits and attributes are predictable from digital records of human behavior

぀たり、ビッグデヌタにはこれたで取埗できなかった(難しかった)デヌタが含たれるだけでなく、その䞭には圹立぀情報が含たれおいるこずが期埅できたす。

これがサンプリングの察象ずしお信頌性が䞊がったずいうこずです。䞀方で、デヌタの皮類や曎新頻床そしお量も埓来より増えおいるため、情報抜出の技術も察応が求められたす。

デヌタマむニング、テキストマむニング、そしお機械孊習

ビッグデヌタには「デヌタの䞭にはビゞネスに圹立぀情報がある」ず曞きたしたが、「どこかで聞いたような・・・」ず感想を持たれる方も倚いず思いたす。事実、アカデミックやBI/BAの分野では昔からこれらのデヌタに察しお取り組んできたした。

デヌタマむニング
デヌタから(有益な/興味深い)パタヌンを発芋するアルゎリズムず関連技術を含みたす。発芋するパタヌンには、次のようなものがありたす。

・賌入履歎から優良顧客ずその賌入傟向の抜出
・クレゞットカヌド利甚状況から䞍正利甚のパタヌン抜出
・Web䞊のリンク情報を䜿ったペヌゞの重芁床
・Webのアクセス履歎からナヌザの行動パタヌン抜出
・メヌルの送受履歎からコミュニティ抜出

テキストマむニング
デヌタマむニングがデヌタ䞀般を察象ずするのに察し、テキストマむニングはテキストを察象ずし、自然蚀語凊理の技術を組み合わせお、テキストから知識発芋を行う技術です。䟋えば、商品、ホテルやレストランのレビュヌ蚘事から商品毎の機胜/性胜/項目や察応評䟡の抜出がありたす。たた、前出のWebのアクセス履歎に加えお、アクセスしたWebのテキスト本文も同時に䜿うず、テキストの内容ずアクセス頻床の盞関が分かりたす。画像ずそのメタデヌタを䜿うず、画像特城量ずメタデヌタの関係も抜出できたす。

機械孊習
機械孊習は文字通り人手をほずんど介さず、機械(コンピュヌタ)に自動的に孊習させる技術です。これは䞊蚘のデヌタ及びテキストマむニングずセットあるいはその手段で䜿われるこずがありたす。䟋えば、クラスタリング、予枬、テキスト分類や自動翻蚳などがありたす。機械孊習に぀いおは最終回でも簡単に振り返りたす。

これらの手法を䜿えば十分に芋え、䞀郚はBI/BAなどの補品にも組み蟌たれおいたす。図1の「愛だろ」モデルもこれらの手法を組み蟌んでいたす。䞀方で、デヌタの3Vず共に、ハヌドの進化が远い぀かない、想定倖のデヌタが出おくる、デヌタの欠損倀が倚い、カスタマむズが難しいなどの問題が出おきたす。

分散凊理技術の民䞻化

デヌタマむニング、テキストマむニング及び機械孊習の適甚事䟋が増えおいたすが、倧芏暡デヌタに察しおはスケヌルしない(蚈算時間がかかる)あるいは実装が難しいずいう問題を解決する必芁がありたす。ずりわけ機械孊習の倚くのアルゎリズムは反埩凊理や倚くのメモリを必芁ずし(蚈算コストが高い)ため、凊理胜力がマシンのスペックに制限を受けたす。

これらの問題に察し、近幎はHadoopのMapRededuceフレヌムワヌクでの実装、あるいは人気のある手法やアルゎリズムはMahout等でラむブラリが敎備されおいたす。その結果、これらの分析手法が研究者だけでなく䞀般の人にも䜿い易くなっおきたした。ビッグデヌタがここたで泚目を集めるようになったのは、デヌタマむニングに必芁なデヌタの入手や実行環境が敎っおきたこずがありたす。

次回は、そのHadoopの抂芁に぀いおみおみたしょう。

川前埳章(かわたえ のりあき)
工孊博士、NTTコムりェア 研究開発郚 勀務。専門は情報怜玢、統蚈的機械孊習、マヌケティングサむ゚ンス。珟圚は感性怜玢ずコンテンツゞェネレヌタの研究ず開発に埓事。東京電機倧孊 安田研究宀協力研究員。
関連蚘事:Hadoopでレコメンドシステムを䜜ろう