今、話題のITトピックス「ビッグデータ」。この概念を説明する際でのキーワードとして取り沙汰される機会が多いのが「非構造化データ」である。

企業がこれまで分析対象としてきたデータは、業務システムなどのデータベースに格納された数値中心の「構造化データ」ばかり。この分析対象を広げて、これまで得られなかった知見を得ようというのがビッグデータの通説だ。

とは言え、非構造化データを活用することで一体どのようなことが可能になり、その実現のためにどういった技術が必要になるのかといった踏み込んだ話は、なかなか語られる機会がない。

そこで本誌は、日本IBMにてビッグデータの事業に関わる、ソフトウェア事業 インフォメーション・マネジメント事業部 マーケティング・マネージャー 中林紀彦氏に話を聞いた。

<ビッグデータセミナー開催決定>

カブドットコム証券の非構造化データ活用例

日本IBM ソフトウェア事業 インフォメーション・マネジメント事業部 マーケティング・マネージャー 中林紀彦氏

IBMが定義するビッグデータの「3V」特性。以前の記事で紹介したとおり、これは「Volume(容量)」、「Variety(種類)」、「Velocity(頻度)」の頭文字をとったキーワードだ。

これらのうち、Varietyを説明するうえで欠かせないのが非構造化データになる。

「企業で利用されているデータを解析していくと、データの8割は非構造化データが占めると言われています」と中林氏は説明する。

非構造化データには、PC/サーバ内に格納されたさまざまなドキュメントファイルや、ネットワーク上を流れるストリーミングデータなどが該当する。ストリーミングデータには、無数に投稿されるSNSへの書き込みや、工場などで利用されているセンサー情報、さらにはオフィスに設置された防犯カメラの撮影データなども該当し、一言で言えば、一般的な業務システムのデータベースに格納されたもの以外のデータとなるだろう。これらを有効活用してビジネスを優位に進めていこうという考え方が、ビッグデータの基本だ。

では、そうした非構造化データを分析することでどのようなメリットが生じるのか。中林氏は、例としてカブドットコム証券の施策を挙げる。

「カブドットコム証券では、Twitterのつぶやきの回数/内容と企業の株価の間に大きな関連性があるのではないかとの推測の下、一部の上場企業に関するつぶやきを収集し、顧客向けサービス一環として、その分析結果を公開しています。分析の結果、ポジティブなつぶやきが多いときは株価が上昇し、ネガティブなつぶやきが多いときは株価が下落する傾向にあることが実際につかめたそうです」(中林氏)

Hadoopだけでは足りない部分も

カブドットコム証券のつぶやき解析作業では、企業名のみならず、製品名やサービス名なども関連キーワードとして設定されたという。その数は実に4万件以上。これを2億件のつぶやきに対して突合させるという、非常に大規模な処理が行われている。

こうした処理で必要になるのが、大容量データを高速に処理する基盤と、テキストデータを解析するテキストマイニングの技術。これには通常、ビッグデータとセットで紹介されることの多いオープンソースの分散処理ソフトウェア「Apache Hadoop」が使われるが、「Hadoopには、一般のエンジニアからすると扱いづらいという側面があるうえ、同梱されたテキスト解析エンジンは実用に耐えうるとは言いづらい」(中林氏)という。

そこで日本IBMでは、カブドットコム証券に対して、Hadoopベースの分析プラットフォーム「IBM InfoSphere BigInsights」(以下、BigInsights)と構文解析エンジン「IBM Content Analytics」(以下、ICA)を提供。Hadoopに不足する機能を補充し、管理性を向上させたプラットフォームと、長年にわたり活用されてきたテキストマイニングエンジンを組み合わせることで、高速かつ精度の高い解析処理を実現したという。

「ビッグデータというとHadoopのイメージが先行しているが、Hadoopだけでは足りない部分が多い。今回のテキスト分析などはその例の1つ。IBMでは、それこそ何十年にもわたりテキストマイニング技術を磨いてきた実績があり、そうした技術とHadoopを組み合わせることでビッグデータを実用的なものへと洗練している」(中林氏)

中林氏によると、今後はテキストのみならず、画像データや音声データ、地図データなども分析の対象になるという。では、これらはどういった活用例が期待されるのか。この続きは、BigInsightsの技術の詳細とともに、6月19日(火)に開催される『ビッグデータ分析プラットフォーム・セミナー』において紹介される予定なので、興味のある方はぜひとも会場に足を運んでほしい。

<ビッグデータセミナー開催決定>