製品も人間も他との連携がなくては残れない・・・ことを実感しました。とりわけ、製品の進化、そこで使われる言語、そして使う人です。

繰り返しになりますが、SparkはHadoop同様にエコシステムと連携することでその効果を発揮します。多くの製品がSparkへの対応をするだけでなく、Spark自体もScalar以外の言語に対応することで、エントリーの敷居を下げています。今後も、言語だけでなく他のツールやミドルウェアのユーザを取り込む為に進化が進むと思われます。

言語でいうと、Pythonが最も有力であると実感しました。機械学習であれば、Rがあり、チュートリアルやセッションの数だけ見ればRもPythonも甲乙が付け難いと思いました。

一方、Pythonの持つ強力なライブラリ群は強みであり、テキストやバイナリデータを扱えるライブラリまで揃っているので、データ分析以前のデータ加工や編集の過程から使えます。したがって、大抵の処理はPythonファミリーでだけで完結できるメリットがあります。実際、多くの技術者だけでなく研究者もPythonを使っており、Hadoopだけでなく前出のSparkでもPythonからも利用でき、分析処理のスケーラビリティを享受出来ますので、Hadoop、Spark、Pythonのユーザコミュニティーは融合しつつ、拡大するように感じました。 データサイエンティストも、アクションに繋がる知見を得ることができなかったり、分析で得られたことを次の担当に伝えることができなければ、結局何もしていない・・・ということが分り始めて、コミュニケーションスキルやデザイン力が求められていると感じました。相変わらず求人の多さは会場で目を惹きました。ただし、要求条件のハードルは年々上がっているようです。

求む!データサイエンティスト

来年のHadoop Worldに向けて

正式発表はされていませんが、来年もNew Yorkで開催されるようです。来年参加を検討している方に、ご参考になればと思い傾向と対策です。

ニューヨークは高いです。ビルも高いのはもちろんですが、ホテル代も比例して高いです。しかも、開催期間は年間でも高い時期に重なるので、大体、一泊3~4万位はすると見ておいたほうがいいと思います。混雑してくると、さらに値段が上がります。参加が決定したら早めにホテルを押さえましょう。

今年は会場がJavits Centerになったのでキャパに余裕があるだろうと思っていたのですが、昨年と同様に当日登録があったのにも関わらず、これまた昨年同様に開催前に登録を締め切りましたので登録もお早めに。あと、ニューヨークは寒いです。正確には、同時期の日本の気温と変わりませんが、この時期でも建物の中では冷房がしっかり効いています。まるでデータセンタの中にいるようです。昨年の会場となったホテルだけかと思いましたが、Javits Centerでもそうでした。寒さ耐性があると思う人でも、防寒具の準備をお薦めします。

また会議の最終日は日本からの参加者による懇親会が例年開催されているので、この日だけは予定を空けておいたほうが良いと思います。

最後になりますが、この場を借りて出張に送り出してくれた会社の上司、同僚現地でお世話になった皆様、そしてこの記事をここまで読んで下さった皆様に御礼申し上げます。

来年は皆さんとお会いできる事を楽しみにしています。

川前徳章(かわまえ のりあき)
工学博士、NTTコムウェア 研究開発部 勤務。専門は情報検索、統計的機械学習、マーケティングサイエンス。現在は感性検索とコンテンツジェネレータの研究と開発に従事。東京電機大学安田研究室協力研究員。
関連記事:ビッグデータとHadoop