【レポート】

非構造化データの分析が生み出すビジネス価値--ビッグデータセミナー中林氏

河原潤  [2012/07/11]

ビッグデータの活用にあたっては、その8割を占めると言われる非構造化データをいかにして扱うかが成否のカギを握ることになる。

6月19日に開催された「ビッグデータ分析プラットフォーム・セミナー」(マイナビ主催)のセッションに登壇した日本IBM インフォメーション・マネジメント事業部 マーケティング・マネージャーの中林紀彦氏は、膨大な非構造化データの分析に最適な処理基盤として、Hadoopアーキテクチャを採用した「IBM InfoSphere BigInsights」ソリューション特徴と機能を解説した。

構造化データと非構造化データの組み合わせで分析精度を大幅に高める

日本IBM インフォメーション・マネジメント事業部 マーケティング・マネージャーの中林紀彦氏

中林氏のセッションでは、「大量(Volume)」のデータが「多様(Variety)」かつ「高頻度(Velocity)」に発生し続けているというビッグデータの"3つのV"のうち、企業が扱う非構造化データの急増がもたらすVarietyの広がりに焦点が当てられた。同氏は、「これまでコンピュータが処理するのは構造化データが大半だった。非構造化データは、どのようにビジネスに役立てることができるのか」と問いかけ、非構造化データを分析するユースケースを分野別に挙げた。

中林氏によると、医療では電子カルテや病院報告書の分析による治療プロトコルや医薬品採用品目リストの最適化、犯罪対策では事件ファイルや通報記録などの分析による迅速な犯罪解決および犯罪傾向の可視化、製造では技術メモ、コール・ログ、オンライン・メディアなどの分析による保証品質の向上とリコール防止、保険では保険金請求処理の分析による不正行為および不正パターンの迅速な検知や請求処理の効率化といったビジネス上の効果が期待できるという。

「最近では、TwitterやFacebookなどのSNS上で大量にやりとりされるメッセージから顧客のリアルな声を収集し、マーケティング施策や新製品の開発などに役立てる動きが活発化している」(中林氏)

次に同氏が示したのは、構造化データと非構造化データを組み合わせての分析だ。セミナーの前日に日本IBMは、ISM製造業景況指数などの経済指標を予測する分析ソリューションを発表している。同ソリューションでは、過去の景況指数や他の複数の経済指数といった構造化データに加えて、ニュース記事のテキスト・マイニングのような非構造化データを分析した結果を加味することで、将来の景況指数を高い精度で予測することを可能にしている。

このハイブリッド型分析手法のより身近な例として、中林氏はある商品に関して、Twitterで言及されたツイート数/商品のWebサイト・アクセス数/商品の売上げの時間推移グラフを示して次のように説明した。

「3つの数値の相関関係はかなり高い。ツイート数が大きく盛り上がったら、それに応じてサイト・アクセス数も跳ね上がり、少し後に実際の売上げが伸びていくかたちだ。この傾向はTwitterの分析だけでは発見できず、社内で蓄積したデータと突き合わせて分析することで発見できた結果で、ここから売上げ拡大に向けた効果的なアクションを検討できるようになる」

一連のアプローチの意義は、これまで分析対象にできず、担当者の勘や経験に頼っていた領域においても定量的な分析を可能にするところにある。「世間で大きく話題になるキーワードならわざわざ分析するまでもなく、すでに何らかのアクションがとれていた。一方、ロングテールの終端付近に位置する少数の声や、季節要因で変動するニーズなどは取りこぼすケースが多かった。非構造化データ分析の技術が進化したことで、SNSなどからそうした情報を抽出して有用な価値を容易に得られるようになったことが大きい」(中林氏)

非構造化データ分析を担うエンジン「IBM InfoSphere BigInsights」

セッションの後半では、非構造化データの分析でメインの役割を担うソリューションとして「IBM InfoSphere BigInsights」が紹介された。中林氏は、同ソリューションの特徴として、(1)IBMの商用サポート体制で提供されるHadoop、(2)GUIによるHadoop分析基盤への容易なアクセス、(3)容易な運用管理・開発の3つを挙げ、それぞれについて説明した。

(1)については、InfoSphere BigInsightsと、その基盤技術であるオープンソース・ソフトウェア(OSS)「Apache Hadoop」との違いとして、利用にあたっては相応のスキルが要求されるHadoopを、一般的な企業が容易に活用できるようにするための商用サポートとして、Hadoopコンポーネント群の動作保証/バージョン管理機能や統合インストール、Web管理コンソールなどの付加価値機能が挙げられた。また、OSSの利用時につきまとう知的財産権の問題についても「IBMは商用製品として責任を持ってサポートを行う」(中林氏)と明言した。

(2)については、カスタマイズが容易なGUIベースの操作体系に加えて、IBMが独自に開発した表計算シートスタイルのデータ探索ツール「BigSheets」が紹介された。Webブラウザベースで動作する同ツールは、MapReduceコーディングを一切行うことなく、Microsoft Excelと同じようなGUI操作でデータ探索を行うことができる。

(3)について、InfoSphere BigInsightsのインストールから運用開始、その後の管理に至るまで、WebブラウザベースのGUIから操作可能な管理コンソールが紹介された。また、分析基盤の開発においても、業界標準であるEclipseベースの統合開発環境が用意されているため、エンジニアはこれまでに培ったスキルを生かして作業することができる。

分析基盤の開発においては、すべてをGUIツールでまかなえないケースもある。その際の開発作業を容易にするため、IBMは、OSSのデータアクセス言語JAQL(A JSON Query Language)を独自に提供している。同言語はデータモデルにJSONを採用し、クエリもJSONで表現することができる。「JAQLはユーザーに容易な開発作業と高い拡張性をもたらす。プラグイン機能を使ってテキスト分析モジュールなどを簡単に組み込めるうえ、Jaql IOパッケージを利用することで、データモデルのカスタマイズや新たな定義が効率よく行える」と中林氏は説明し、JAQLを使えば他の言語よりもわずかな記述で開発できることをスライドで示した。

加えて、日本語の形態素解析をサポートしたテキスト分析モジュール「System T」も提供されており、先のJAQLと組み合わせて使うことで、コンテンツの中身を正確に分析するような活用が可能になる。さらに、PB(ペタバイト)級のデータに対してテキスト・マイニングをかけるようなハイエンドの用途に向けて、テキスト分析専用ソリューションとして5カ国語に対応した「IBM Content Analytics」が用意されている。

InfoSphere BigInsightsは、商用版のEnterprise Editionと、無償で提供される非商用版のEnterprise Edition for Non-Production Environmentの2エディション構成となっている。中林氏によれば、今後のロードマップとして半年に1、2回のペースでバージョンアップが予定されており、データ・ウェアハウスおよびRDBM、ETLプラットフォーム、「Cognos」「SPSS」をはじめとするビジネスインテリジェンス・ツールなど他社製品を含めた業務アプリケーション/プラットフォームとの連携強化や、画像・動画からのユーザーのプロファイリング、予測のためのモデリングなど、分析対象コンテンツの拡大などが計画されているという。

非構造化データの分析に強いIBM InfoSphere BigInsightsは商用版のEnterprise Editionと、無料で利用可能な非商用版のEnterprise Edition for Non-Production Environmentの2つのエディションで構成される

Smarter Planetビジョンの下、広範な分野で導入が進む

「すでに世界中のさまざまな業種・分野で、InfoSphere BigInsightsを導入して膨大な非構造化データの分析を行い、新たなビジネス価値が生み出されている」と中林氏。塚本氏のセッションでも紹介された、デンマークの風力発電装置メーカーの事例(2.5PBに及ぶ気象および地理情報データを分析し風力発電タービンの設置位置を最適化)やTwitterの膨大なツイートからの動向予測を実施している国内のオンライン証券会社の事例もInfoSphere BigInsightsが採用された先進事例である。

中林氏のセッションでは、米国の大学が取り組んだユニークな研究が紹介された。これは、オスカー賞やアカデミー賞など米国のハリウッド産業の賞シーズンに、一般市民がTwitterで作品や監督、俳優などをどのように評しているかを測定するというもの。同大学は、InfoSphere BigInsightsとストリーム・コンピューティング・ソリューションの「IBM InfoSphere Streams」を用いて、数百万件のツイートのリアルタイム分析を行い、興味深い結果が得られたという。

中林氏によれば、分析対象データが1TBの場合、Twitterのツイートに換算すれば億単位の件数になり、十分な分析が可能になるという。「ビッグデータと聞くと敷居が高いように思われているかもしれないが、まずは、分析対象データ1TBまでのリーズナブルな構成からBigInsightsを利用して、非構造化データ分析がもたらすメリットを実感していただきたい」(中林氏)

「ビッグデータ分析プラットフォーム・セミナー」総力レポート!!

『ビッグデータ分析プラットフォーム・セミナー』
講演資料、無料ダウンロード提供中!!


6月19日に開催した『ビッグデータ分析プラットフォーム・セミナー』における各セッションの講演資料を無料でダウンロード提供しております。

ご希望の方はこちらのWebサイトにてお申込みください。

なお、ダウンロードには個人情報の入力が必要になりますが、メールの署名などのテキストデータをコピー&ペーストするだけで各項目が自動入力される「かんたん入力」機能もご用意しております。入力作業がわずか数秒で終わる便利な機能ですので、ぜひともご活用ください。

⇒講演資料ダウンロードページ

関連したタグ

    新着記事

    求人情報

    人気記事

    一覧

    イチオシ記事

    新着記事

    転職ノウハウ

    あなたの仕事適性診断

    4つの診断で、自分の適性を見つめなおそう!

    Heroes File ~挑戦者たち~

    働くこと・挑戦し続けることへの思いを綴ったインタビュー

    はじめての転職診断

    あなたにピッタリのアドバイスを読むことができます。

    転職Q&A

    転職に必要な情報が収集できます

    スカウト転職する

    企業からアプローチのメッセージが届きます。