「当社にはそんな巨大なデータはない」といった話がビッグデータ処理の話題が出ると、必ず聞かれるが、それは“ビッグデータ”という語に囚われすぎているといえる。 データを分析し、そこから得られる知見を踏まえて現在や未来の状況を推測する、というプロセスはあらゆるビジネスで普通に行なわれていることであり、最近になって急に始まった特別なことではない。

重要なのは従来解析対象となっていなかったデータから新たな知見を得られるようになったという点であり、これまで見過ごされていたデータからどのような価値を引き出すかはまさにアイデア次第/気づき次第ということになる。本稿ではユーザー企業がビッグデータ活用のためにどのような準備を行なうべきかを特にストレージインフラに着目し明らかにしていく。

ビッグデータストレージの選定条件

ユーザー企業がビッグデータ処理に取り組む場合、最初からどのようなデータをどのように処理するかが明確になっているとは限らないだろう。まずは自社で収集可能、もしくは外部から入手可能なデータのうち、解析することで自社にとって有用な知見を引き出せそうなものを見つけ出すところから始めないと、という企業も少なくないと思われる。

特に自社にのみ存在するようなデータの場合、失われてしまったらもう二度と入手は出来ないものが大半だろう。これまでは特に使い途がないという判断で一定の保存期間が経過したら削除していたようなログファイルなども、新たな視点で解析すれば有用な知見が得られるかも知れない。この場合、まずはデータを捨ててしまうことを止めること、言い換えれば、データを漏れなく保存できるストレージインフラを構築することがビッグデータ処理のための第一歩となる。

より使えるHadoopのために! アーキテクチャ設計と再実装による性能向上

ビッグデータ処理に関しては“データ・サイエンティスト”が注目を浴びる傾向があるが、解析処理自体は最終段階である。まずはその前提であるデータ収集を確実に行うことがIT担当者の業務である。

では、そのデータ収集を行うストレージ・インフラはどのような構築をするべきなのかを「コスト効率・運用管理効率」の2点に注目してみよう。

(マイナビニュース広告企画)

[PR]提供:netapp