詳細説明その2 - ビッグデータ活用の普及阻害要因を解決するソリューション
次はRon Kasabian氏(Photo36)により、"Unlocking the Intelligence in Big Data"と題した説明が行なわれた。まず簡単にBig Dataの動向であるが、基調講演にもあった通りなにしろ90%のデータが非構造化、つまりとりあえず集めたデータをそのまま突っ込んでる状態である(Photo37)。ではきちんとBig Dataを分析するどんなニーズがあるのか(Photo38)ということで、既に幾つかの事例があることが紹介された(Photo39)。実際にIntelの社内においても、Big Dataを活用することでコスト削減を実現しているとする(Photo40)。
Photo37: とはいえ、Server CostやStorage Costの下落により、データ量が10倍になってもとりあえず突っ込むことは出来る。なので後はこれをどう分析するかという話で、ここに商機があるという分析。 |
今後はこうしたBig DataがもっとEnd to Endで使われる(Photo41)と予測されており、これはIoTの普及で更に進化してゆくだろうとした(Photo42)。
Photo42: 左の旅客機のエンジンは、今は稼働時間ベースで定期的にエンジンを下ろしては点検、という原始的な仕組みであるという例として示されたもの。IoTによって、例えば貨物のトラッキングがリアルタイムで出来るといった展開が考えられる。 |
問題はこうした普及に関しての阻害要因をどう解決してゆくか(Photo43)であり、これに対してのSolutionを提供するとしている(Photo44)。まず処理コストの問題。Photo45はBryant氏の基調講演でいきなり登場したデータだが、こちらではもう少し具体的な数字が示された(Photo46)。この最後に出てきたIntel Distribution for Apache Hadoopの特徴がこちら(Photo47)。要するに内部をIntelのCPUに最適化したとものである。解決方法はともかく、これだけ処理性能が上がれば当然オペレーションコストは下がる事になる。
Photo47: とりあえずAES-NIへの対応、それとIntel Active Tunerによる最適化は間違いないところ。30倍のソート速度とか8.5倍のHiveへのQueueingに関してはハードウェア構成が違うので「なんともいえない」。 |
二つ目がデータの複雑性へのソリューションである(Photo48)。こうしたものに対する一つのSolutionとして現在Intelが開発中なのがIntel Graph Builder(Photo49)であり、他にも様々な研究を行なっている、とした(Photo50)。
Photo48: これはLinkedin Mapsを使って、あるユーザーのLink状況を示したもの。 |