Hadoopによるビッグデータ分析基盤設計入門(1) ビッグデータが注目される理由と新しいデータ活用基盤の必要性

ユーザー部門側へと大きくシフトするIT投資

世界中の企業がビッグデータ活用に心血を注いでいる。その理由をIT投資の見地から端的に言えば、ITの軸がユーザー部門の側へと大きくシフトしていることが挙げられる。

すなわち、基幹系や業務系といった従来ながらのバックオフィスの仕事を支えるITから、直接”お金”を稼ぐ、業務効率を上げる、製品品質を向上させる、市場投入への時間を短縮させるといった攻めのITへと、IT投資の趨勢は変わってきているのである。

クラウドサービスのようにシステムメンテナンスが不要でユーザー部門が使いやすいプラットフォームへの投資が活発化しているのも、そうした流れに拍車をかけている。そしてユーザー部門側がITを活用して例えばお金を儲けようとした時、日々の数値の可視化や顧客動向の把握、さらには将来の予測分析などのニーズが生じてくるが、その実現にはデータ分析が欠かせなくなってくる。

こうしたことからデータそのものの付加価値の高さを多くの企業が理解しはじめ、企業の競争力の源泉として位置づけられるようになってきているのである。

ビッグデータとは何か?

では、そもそも「ビッグデータ」とは何なのだろうか? 諸説あるが、個人的には「ビジネスニーズを満たすために必要となるデータ群」だと考えている。

容量の他、データの数、種類、コスト、パフォーマンスなど、さまざまな観点が考えられるが、必ずしも”ビッグ＝容量”ではない点に注目してほしい。いずれかの要素が自社のキャパシティからあふれてしまったら、それがすなわちその会社にとってのビッグデータになるのだと考えても決して間違いではないだろう。

例えば容量はGBクラスでシステムのキャパシティの範囲であっても、100億レコードもあるようなデータを従来型のRDBで管理できるかといえば、まず難しい。これは明らかにビッグデータであると言っていい。

ある企業が売上を30%増やしたいと考えて、そのために顧客の動向を知ろうとしたとする。顧客動向を知るためには売上データだけを見ていたのでは不十分で、多種多様なデータを売上データとひも付けて分析する必要がある。

例えば顧客がWebサイトのどこにアクセスしているか、どこにどれだけ滞在しているか、どこで商品をカートに入れて、最終的にどの商品を買ったか、もしくは買わなかったか……Webサイト上の情報だけでも多岐にわたる。

さらに実店舗内での顧客の動線を把握するためのWi-Fiアクセスログや、SNSでのつぶやき等々、顧客動向を知るために必要なデータは数えきれない種類に及ぶ。単純な売上げデータ(＝基幹系/業務系システムのデータ)にこうした膨大な周辺データを加えていけば自然と「ビッグデータ」になっていくのである。さらにそれらを数ヶ月や1年分だけでなく、3年分、5年分と比較して使うのだから、容量的にも「ビッグデータ」となるのは必然だ。

ビッグデータを支える基盤と米国流通大手での活用例

ビッグデータとそれを支えるシステム基盤の主な用途について説明しよう。

基本となるのは、データレイク(エンタープライズデータハブ)によるデータのサイロ化の解消だ。

まずビジネスニーズとして、売上や収益向上、顧客動向の把握といったセールス/マーケティングのニーズや予防保守、不正検知、在庫の適正化などリスク回避のニーズがある。これらの依頼をIT部門が受けると、それはITニーズとなっていく。

具体的には、ストレージとデータウェアハウス(DWH)最適化といった情報系ITに関するニーズ、リアルタイム処理、ストリーミング対応といったIoT/M2Mに関するニーズ、そしてバッチ高速化のような基幹系ITのニーズなどが挙げられる。ストレージとDWH最適化については、パフォーマンスやコストは当然だが、大きいのは構造化データ以外のデータの処理が重要なポイントとなる。

わかりやすい例として、コンバージドデータプラットフォームを提供するソリューション「MapR」を導入し、ビッグデータ活用のシステム基盤の構築に成功している米国最大手のGMSチェーンでのケースを簡単に紹介しよう。

以前同社では、ERP、CRM、Webサイト、在庫管理など、システムがサイロ化されており顧客データも統合化されていなかった。システムがサイロ化するとデータもサイロ化されてしまうため、顧客視点で動向を把握することが不可能な状況だったのである。

そのため同社では、すべての顧客に関するデータを一箇所に集約してデータレイクを構築。各種の分析をデータレイク上で行えるようにした。そうすることで、それぞれのビジネスニーズに応じた施策が打てるようになったのである。その後同社では新しいデータ分析基盤の活用によって、売れ筋商品の捕捉と理解、来店者の属性や動向の把握、動線/陳列最適化による商品クロスセリング、さらにはこのデータ基盤のリアルタイム性を上げて、常に最安値と比較し最安値保障をし、購買意欲を上げるなど、数多くのビジネスベネフィットを得ることができたのである。

データレイクやエンタープライズデータハブといったものがいかに重要になってくるかを示す好例といえるだろう。

新しいデータ分析基盤を構成する「Hadoop」

従来ながらのデータ分析のほとんどは、売上や在庫データ等を格納するトランザクションデータベースから、売上データや在庫データといったGBクラスの構造化データをDWH(オペレーショナルデータベース)へと一度データを移して、売上分析を行うといった形となる。いずれのデータベースもテクノロジーとしては従来からのRDBMSで構成され、まだまだほとんどの企業ではこうした分析基盤を使っていると思われる。

しかしいくら売上高の分析をしたところで顧客動向まではわからないため、売上レポートは作れるが、売上を上げるための施策を打つまでいかない。そのためビッグデータ活用を志向する最新の分析基盤は以下のような形となる。

まずトランザクションデータベースにある基幹系の構造化データ以外に、顧客動向把握に必要となる様々なデータをプラスしていく。例えばPOSデータやWebサイト、ECサイトのアクセスログといった構造化されていないデータをそれも複数年分のデータ含めると、あっという間にTBやPBといった膨大な容量になってくる。

これらのデータをすべて既存のDWHに格納していたのではコスト的にもパフォーマンス的にも非常に厳しいため、より安くて計算も素早い新しいデータ処理の仕組み──すなわち「Hadoop」にデータを格納するようになるのである。

これが、アナリティカルデータベースであり、ロックやコミット等が必要となるトランザクションは伴わず、検索や分析目的の大規模データの格納と、データクレンジングの分散処理や分析を担う。また構造化データ以外のファイルやログの格納、処理、分析もここで行うことになる。

このようなHadoopで構成されたアナリティカルデータベースでデータを一次処理した後に既存のDWHに渡すというスタイルが、ビッグデータ分析基盤の主流となっていくことだろう。

つまり、データを格納する場所が段々と変わってきているのである。例えば、既存のデータ格納場所であるRDBMSや基幹系システムでは、システムの可用性や単一でのパフォーマンス(スケールアップ)などが強く求められるが、ビッグデータをここで管理するとなると無理が生じてくる。

そこで、トランザクション系の他に、分析系の新しいデータ格納の仕組みが必要となっているわけだ。その新しい仕組みは、データ量当たりのコストが安く、増え続けるデータに対してスケールアウトができ、様々なデータを扱うため、多構造化データ処理ができるものでなければならない。まさに、その新しいプラットフォームがHadoopであるわけだ。

いったいHadoopとはどのようなものであるのかなどは、次回以降に言及していくことにしよう。

解説者紹介

三原茂 (MIHARA Shigeru)
- 株式会社マップアール・テクノロジーズアライアンス&プロダクトマーケティングディレクター /
　日本データマネジメント・コンソーシアム(JDMC) セミナー部会メンバー

サン・マイクロシステムズ、日本オラクル、日本IBMといった大手ベンダーでプロダクトマーケティングや新規製品のビジネス開発に従事。ハードウェアからミドルウェア、商用からOSSまで、多岐にわたる製品のプロモーションや販路拡大を行う。

日本オラクルとファストにて検索やマネタイズ分野のビジネスに関わり、EC、ビッグデータといったITの新分野に興味を持ち、2014年にマップアール・テクノロジーズへ入社。

ビッグデータが注目される理由と新しいデータ活用基盤の必要性

ユーザー部門側へと大きくシフトするIT投資

ビッグデータとは何か?

ビッグデータを支える基盤と米国流通大手での活用例

新しいデータ分析基盤を構成する「Hadoop」

解説者紹介

この連載の前後回

AIが勧める、あなたのための会員限定記事

島津製作所が「AIカスタム培地開発サービス」を開始 - 細胞培養効率化へ

ソニーがゲームスタジオのBluepointを閉鎖、約70人を解雇へ

ラズパイ搭載ミニカーで速さを競え! 第2回「自動運転ミニカーバトル」を見た

軍事とIT 第650回マン・マシン・インタフェース(4)自律制御とスプリット・オペレーション

イトーキが「ITOKI OFFICE AI AGENTS」を発表、AIエージェントで変わる次世代オフィス運用

2027年のAIサーバ向けカスタムASIC出荷量は2024年比で3倍に増加、Counterpoint予測

軍事とIT 第650回マン・マシン・インタフェース(4)自律制御とスプリット・オペレーション

ソフトバンクの劣化音声をクリアにする音声強調技術、国際コンペで1位獲得

2026年の主役「GPUサーバ」：AI時代のサーバ市場とGPUが変える産業構造【後編】

HPEが描くAI時代のネットワーク戦略 - ジュニパー統合で加速するセルフドライビング構想

パナソニックコネクト、図面照合にAIエージェント導入 - 作業工数を最大97％削減

NTT西日本ら3社、IOWN APNで約300km離れた工場のAI外観検査を実証

このカテゴリーについて

ビッグデータが注目される理由と新しいデータ活用基盤の必要性

ユーザー部門側へと大きくシフトするIT投資

ビッグデータとは何か?

ビッグデータを支える基盤と米国流通大手での活用例

新しいデータ分析基盤を構成する「Hadoop」

解説者紹介

この連載の前後回

AIが勧める、あなたのための会員限定記事

島津製作所が「AIカスタム培地開発サービス」を開始 - 細胞培養効率化へ

ソニーがゲームスタジオのBluepointを閉鎖、約70人を解雇へ

ラズパイ搭載ミニカーで速さを競え! 第2回「自動運転ミニカーバトル」を見た

軍事とIT 第650回 マン・マシン・インタフェース(4)自律制御とスプリット・オペレーション

イトーキが「ITOKI OFFICE AI AGENTS」を発表、AIエージェントで変わる次世代オフィス運用

2027年のAIサーバ向けカスタムASIC出荷量は2024年比で3倍に増加、Counterpoint予測

軍事とIT 第650回 マン・マシン・インタフェース(4)自律制御とスプリット・オペレーション

ソフトバンクの劣化音声をクリアにする音声強調技術、国際コンペで1位獲得

2026年の主役「GPUサーバ」：AI時代のサーバ市場とGPUが変える産業構造【後編】

HPEが描くAI時代のネットワーク戦略 - ジュニパー統合で加速するセルフドライビング構想

パナソニックコネクト、図面照合にAIエージェント導入 - 作業工数を最大97％削減

NTT西日本ら3社、IOWN APNで約300km離れた工場のAI外観検査を実証

このカテゴリーについて

軍事とIT 第650回マン・マシン・インタフェース(4)自律制御とスプリット・オペレーション

軍事とIT 第650回マン・マシン・インタフェース(4)自律制御とスプリット・オペレーション