【レポート】

大量構造化データの高速分析に不可欠なもの--ビッグデータセミナー法華津氏

河原潤  [2012/07/18]

ビッグデータの分析基盤を構築する新技術としてHadoopに注目が集まっている。だが、Hadoopがすべての用途をカバーするわけではなく、特に企業内に蓄積された大量の構造化データの管理・分析には、伝統的なデータ・ウェアハウス(DWH)が引き続き威力を発揮することになる。

「ビッグデータ分析プラットフォーム・セミナー」(マイナビ主催)のセッションに登壇した日本IBM ソフトウェア事業 インフォメーション・マネジメント事業部 Big data/DWH事業部長の法華津誠氏は、構造化データの管理・分析に最適な基盤としての「IBM Netezzaアプライアンス」の特徴を、事例を交えて紹介した。

家電のように簡単に扱えるビッグデータ/DWH分析基盤

日本IBM ソフトウェア事業 インフォメーション・マネジメント事業部 Big data/DWH事業部長 法華津誠氏

セッションの冒頭、法華津氏は、これまで日本企業の情報システムは、その構造が年々複雑化していく中で、優秀なSEやITスタッフの苦労によって支えられてきた面があると指摘。そして、来場者に向かって「優秀な人材の独力でカバーしてきた分、何か画期的なテクノロジーが登場してきたときに、既存のやり方を変えることに躊躇しがちだ。でも、その画期的なテクノロジーが運用・メンテナンスに大変な手間がかかるという現状を変えてくれるものだったらどうか」と問いかけ、「チューニングが不要で、高速にデータロードの更新ができ、最小限のメンテナンスで運用できるDWHアプライアンス」がそれを可能にするテクノロジーだとアピールした。

法華津氏は、DWHアプライアンスの簡便さを、文字どおりの家電(appliance)になぞらえて説明した。「家電量販店に行って冷蔵庫を購入すると、自宅まで配送してくれる。届いたら電源プラグをコンセントに差し込むだけですぐに使えるようになり、後は食料品を放り込んでおくだけである。これとまったく同じようにDWHを運用できたらどうか。DWHアプライアンスはそんな発想から開発された製品である」

ここ1、2年の間に、高速な分散処理を可能にするHadoopをはじめとして、ビッグデータを活用するための技術に注目が集まるようになった。ビッグデータの時代に、なぜ、あらためてDWHなのか。この問いに法華津氏は次のように答えた。「量・種類・生成頻度の“3つのV"が極まったビッグデータが日々入ってくる一方、ユーザーは自身の手元にあるデータすら活用に苦慮し、その鮮度は落ちていくばかりだ。そんな状況だからこそ、データを放り込んですぐに答えが出せるようなソリューション、すなわちDWHアプライアンスが必要になる」

IBM Netezzaアプライアンスに備わる2大特徴

IBMが提供するDWHアプライアンス「IBM Netezzaアプライアンス」は、ビッグデータおよびDWHの分析に特化した専用システムである。開発元のネティーザが市場に投入したのが2003年で、2010年にIBM製品ファミリーに加わっている。登場当初はDWH用途のみであったが、時代のニーズに応える形で、高度な分析が行えるように搭載ソフトウェアが改善されて今に至っている。

Netezzaの製品ラインアップを構成するモデルは3タイプ。最小構成となる「Netezza 100」は、開発およびテスト用に提供されるモデルで、最小1TB~最大10TBのデータに対応する。「Netezza 1000」はメインストリームのモデルで、最小1TB~最大1.5PBに対応する。「Netezza C-1000」は、Netezza 1000よりも処理能力は若干低いが、最小100TB~最大10PBもの大容量データが扱え、クエリ投入が可能なアーカイブ/バックアップ/DR(災害対策)向けモデルとして位置づけられている。

Linuxサーバをはじめ標準的なハードウェアコンポーネントで構成されるNetezzaの最大の特徴が、「非対称型超並列処理(AMPP)」と呼ばれる並列処理アーキテクチャだ。法華津氏は次のように説明する。「ブレードサーバに搭載された最大960個のCPUコアが、1つのSMPホストからの命令で同時に処理が走る。SQL処理はすべてSMPホスト側で、各コアはひたすら命じられた処理の実行に特化しているため、コア側のオーバーヘッドを極小化することができる」

もう1つの大きな特徴は、「インテリジェント・クエリー・ストリーミング」と呼ばれるDB高速化技術を搭載している点だ。これは、投入されたSQLに基づいてデータの結合、集計、ソートなど分析時の複雑な計算をすべてFPGAと呼ばれる回路内で処理。このCPUに依存しない処理工程も並列処理されデータが絞り込まれ、必要なデータのみがCPUへ返されるという仕組みを持つ。「この仕組みによって、データの移動量を劇的に減らし、圧縮比1/4の場合には毎秒400MBの高速なストリーミング処理が行うことが可能だ。ここは従来、エンジニアの手でチューニングしてきた部分である」(法華津氏)

人手でチューニングを行う必要がほとんどなく、ハードウェアやデータベースの物理設計も不要である点は、TCO(総所有コスト)の引き下げに貢献する。法華津氏は、スライドに、導入から運用管理に至るフェーズにおける工数について、Netezzaと一般的なDWHを比較した図を示したうえで、「Netezzaさまざまな状況に合わせてシステム変更が将来的に必要になった場合でも、データベース・モデルの設計変更やデータマートの作成などを必要とせずに、柔軟に、すばやく、しかも安価に対応が可能だ」とメリットを強調した。

DWHの導入から運用管理に至るフェーズにおける工数について、Netezzaと一般的なDWHを比較した図

ユーザーの業務効率を高める、安定的で予測可能なパフォーマンス

AMPPアーキテクチャとインテリジェント・クエリー・ストリーミングによって、Netezzaでは、データの流れを止めないストリーミング処理が実現されている。このことは、パフォーマンスが常に安定し、予測を可能にすることにつながる。例えば、1台のディスクで毎秒100MBのスピードで分析処理がなされているとすれば、単純に10台なら1GB、100台なら10GBのデータを処理可能であることが事前に予測できるわけだ。

「つまり、ボタンを押してから、分析結果が返ってくるまでの時間が読めれば、ユーザーは時間を有効に活用することができる。Netezzaアプライアンスが世界中のユーザー企業に指示されているのは、このわかりやすさにある」(法華津氏)

セッションの最後にはNetezzaの事例が2つ紹介された。1つは、高齢者のセカンドキャリアを支援する米国のNPO、AARP(全米退職者協会)のビジネス・インテリジェンス(BI)刷新プロジェクトで、BIを稼働するRDBMSをNetezzaで置き換えたところ、データロードの速度が14倍になったうえ、ユーザー自身による自由分析も可能になり、3年間で3.5倍という高いROI(投資資本率)を達成している。

もう1つは、国内大手企業のビッグデータ分析基盤の事例だ。この会社は早期からHadoopによる高速分析基盤を構築したものの、PBクラスに及ぶ膨大なデータを十分に使いこなすことができなかった。そこで、Hadoopを補完するDWHアプライアンスとしてNetezzaを導入。今までやりたくてもできなかった自由分析が可能になり、ビジネス価値につながる洞察を得ることに成功したという。

「Netezzaを導入することで、どの顧客も自身の運用管理負荷が格段に減り、コア事業により集中できるようになった。実際に冷蔵庫のように使えるのかどうか疑念を抱いているユーザーの皆さんも、まずは試してその効果を実感していただきたい」――法華津氏はこのように語ってセッションを締めくくった。

「ビッグデータ分析プラットフォーム・セミナー」総力レポート!!

『ビッグデータ分析プラットフォーム・セミナー』
講演資料、無料ダウンロード提供中!!


6月19日に開催した『ビッグデータ分析プラットフォーム・セミナー』における各セッションの講演資料を無料でダウンロード提供しております。

ご希望の方はこちらのWebサイトにてお申込みください。

なお、ダウンロードには個人情報の入力が必要になりますが、メールの署名などのテキストデータをコピー&ペーストするだけで各項目が自動入力される「かんたん入力」機能もご用意しております。入力作業がわずか数秒で終わる便利な機能ですので、ぜひともご活用ください。

⇒講演資料ダウンロードページ

    関連したタグ

    新着記事

    求人情報

    人気記事

    一覧

    イチオシ記事

    新着記事

    転職ノウハウ

    あなたの仕事適性診断

    4つの診断で、自分の適性を見つめなおそう!

    Heroes File ~挑戦者たち~

    働くこと・挑戦し続けることへの思いを綴ったインタビュー

    はじめての転職診断

    あなたにピッタリのアドバイスを読むことができます。

    転職Q&A

    転職に必要な情報が収集できます

    スカウト転職する

    企業からアプローチのメッセージが届きます。