「Hadoop World 2014」参加レポート

Spark

今回のカンファレンスの主役の一人はSparkでしょう。というのも、これだけチュートリアル、キーノート、セッション及び企業ブースで取り上げられた人気者はいなかったと思います。

Sparkは分散処理のフレームワークで、Sparkにも、Hadoopのエコシステムに対応したものが存在し、Shark(SQLに似たクエリのエンジン、Hiveに対応)、MLlib(機械学習のライブラリでMahoutに対応、一方、MahoutもSparkに移行中)、GraphX(グラフ解析のライブラリ、Apache GiraphやHamaに対応)、Streaming(ストリーム処理のフレームワーク、Storm)があります。

MapReduce(Hadoopの分散処理のフレームワーク)がディスク上でデータ処理を行っていたのに対し、Sparkはメモリ上にデータを展開して処理する点が大きく違います。つまり、Sparkは低レイテンシの処理のフレームワークであり、処理の速度向上を可能にします。今まではデータの蓄積及び単純な処理であればMapReduceでも十分でした。

一方、機械学習やネットワーク解析のように繰り返しが多い処理では、Sparkによる速度向上が期待され、事例の多くで紹介されています。

チュートリアルではSpark Campがあり、一日かけてSparkの開発元企業である米Databricksのエンジニアによるhands onのセミナーがあり、参加者はSparkのダウンロードから設定、簡単な開発のレクチャを受けることができました。また、セッションではさらにSparkを使った分析事例や製品の紹介があり、著名あるいは主要なBI/BAツールでは軒並みSparkとの連携・対応を盛んに強調していました。むしろ、Sparkとの関係が無い製品を見つけるのが難しいぐらいでした。そうは言っても、Spark対応製品のブースの担当者やSparkユーザに聞いたところ、Sparkにはまだまだ改善の余地はありそうです。

データサイエンス

Spark含めHadoopファミリーで何をするのかというと、大規模データ処理ですが、利用ではデータサイエンスが人気でチュートリアル、セッションでも並列している時間帯もありました。

講演者の顔ぶれも豪華で、講演分野も多岐に渡りました。例えば、Hardcore Data Scienceというチュートリアルでは、データマイニング、及びネットワーク解析では著名な研究者である、Jon Kleinberg氏が講演、別のセッションでは、RDBの大御所Michael Stonebraker氏が講演し、こちらも盛況でした。

データサイエンティストの定義や育成というセッションも人気がありました。定義に関してはキーノート、チュートリアル、セッションでも度々取り上げられ、データサイエンティストに共通するスキルとしては大体、共通しているのは

分析スキル (課題を理解するスキル)
数学/統計スキル (データを理解するスキル)
テクニカルスキル (データを入手、加工そして視覚化するスキル)
コミュニケーションスキル (何が重要であるかを伝えるスキル)

です。

If You Can’t Code, You Can’t Be a Data Scientistというタイトルのセッションでは、文字通り、四人の登壇者が二手に分かれてこのタイトルについての是非をディベートしていました。結果は勿論「是」でした。

育成では、Data Science Bootcampというセッションがあり、ここではデータサイエンティストというのは外から呼んでくるものではなく、内部のデータが分っていて、ゴールが見えている内部の人間をデータサイエンティストとして育成する方が効率的だという話でした。

これは、現場を知らない外部のデータサイエンティストに任せても、出てくる結果が現場の人間にとっては既知のものばかりという背景があるようです。このセッションでも定義の話になりましたが、先程のスキルに加えて、デザイン能力も必要になるとのことでした。これはデータサイエンティストは単なる研究者だけでなく、ビジネス展開まで落とし込める人が望まれているということです。

改めて、この分野が日本と大きく違うのはビジネスとアカデミックの距離が非常に短いということでした。例えば、先程のHardcore Data Scienceでは以前(といっても1～2年前)は研究者として学会で発表、今は企業のCEOやCTOの立場で講演している方が何名かいました。

ライフケア

「データサイエンスの適用先は?」というとおなじみのレコメンド(商品推薦)の話は今回もまだまだ残っていますし、それを簡単に導入できることをうたうパッケージもありました。

行政の持つデータのオープンデータ化とその利用の話題もありましたが、今回は「ライフケアや教育にどう使うのか?」という話が増えてきました。レコメンドとは違い、直接利益に繋がる話ではないのかもしれませんが、「我々の生活をどうサポートしていくのか、向上せるのか?」という話です。

目に見えたところでは血圧などのバイタルデータや睡眠データを利用しての健康管理から、医療データや電子カルテの共有といった医療分野の事例がありました。例えば、難病の患者さんのデータはなかなか取得し難く、共有されていなかったのが現状ですが、デバイスの軽量化や進化、及びクラウドでの共有化により治療方法の早期確立が期待されているそうです。この場合、データサイエンティストに分析を依頼するのではなく、医療関係者がデータサイエンティストになる必要が出てくるでしょう。

実際に「ライフケアに必要なバイタルデータをどう取るのか?」という点に関しては、ハード依存のところもあり、今回の展示にはあまり見られませんでした。

企業ブース

企業ブースは大幅に増え、出展企業もハードからソフトフェアベンダまで多岐に渡っています。製品もDB、BI/BA、機械学習に特化したソフトフェアから監視・運用ツールまで一通り揃っています。とりわけBI/BAを扱う企業のブースの規模が大きく、そこにスタッフが多かったように感じました。キーノートだけとはいえ、動画でHadoop Worldを見ることが出来るようになったので、この企業ブース巡りが参加の大きなメリットだと思います。なぜなら、製品同士の水平比較も短時間で効率的に出来るだけでなく、ブースに開発担当者が揃っているので、技術的な話を直接聞くことができます。

ベンチャーであれば経営幹部もいるので、ロードマップや導入実績などの話も聞けます。ブースの数は100近くあり、一旦担当者と話し出したら、最低でも10分はかかると思いますので、休憩時間を使っても回りきれないでしょう。したがって、あらかじめどのブースで何を聞くかを事前に決めておいた方が良いと思います。現地で知り合った人と分担し情報交換をするのも一つの手です。

人材の流動化も激しいので、昨年とは違うブースで話している人も見かけます。そんな人を見かけたら、「昨年はこんなことを言っていたけど・・・」と話しかけるのも楽しいと思います。英語に自信が無い人は、いい英会話の勉強の機会になるでしょう

企業ブース(人が多過ぎで撤去時にしか写真を撮れませんでした)