1コアあたりの性能向上が緩やかになってきているため、処理速度を向上させるには並列処理へ移行する必要がでている。PCレベルであればマルチコアでの並列化ということになり、もっと大規模でスケーラビリティの高い処理を実現するにはグリッドやクラウドコンピューティングと呼ばれるような分散コンピューティングを実現していく必要がでてくる。
分散コンピューティングはシステムアーキテクチャの設計から実装まで煩雑になると敬遠されがちだが、簡単に実現するための方法がないわけではない。OSSプロダクトではApache Hadoopが代表的な存在だ。Hadoopは大量のデータ処理を分散処理するためのプラットフォーム。Hadoopの流儀にしたがって機能を実装すれば自動的に分散処理を実現できるという優れものだ。
しかし分散コンピューティングというと研究室レベルでの活用とか、GoogleやYahoo!、IBMといった大企業しか使えないのではないかと思われがちだ。そこでYahoo! JAPAN Tech Blog: Hadoopで、かんたん分散処理を紹介したい。Yahoo! Japanでの活用事例を取り上げながらHadoopの活用を紹介している。特にベースとなっているMapReduceモデルをわかりやすく紹介しているところに注目したい。
HadoopではMap関数とReduce関数を実装する。あとはHadoopプラットフォームに放り込めば自動的に設定されたマシン群において分散処理される。処理はMap→Shuffle→Reduceの順に行われる。Mapは入力データの振り分け、Shuffleはデータの整列、Reduceはデータのまとめ上げを担当する。Shuffleはすでに実装されているため、利用者が作るのはMapとReduceだ。
Hadoopで、かんたん分散処理では単語数カウンタを例に処理の様子が紹介されている。「THE END OF MONEY IS THE END OF LOVE」といった文章から単語数をカウントする場合を考えると、次のようにデータがそれぞれから出力されることになる。なおデータは値と鍵の組み合わせとして処理される。
Hadoopで、かんたん分散処理はここからがおもしろい。Yahoo! Japan 地域サービス事業部ではHadoopをデータ解析やログ解析、クローラに使っているそうだが、日常業務のちょっとした処理もHadoopでこなしているという。たとえば大規模ファイルからランダムに10,000件のデータを取り出したい場合、Mapで割り当てる鍵をランダムな数値にして、Reduceで値だけ取り出して最初の10,000件のデータただけ取り出せばいいというわけだ。Hadoopが使えるため分散処理が実施できるとこがポイントだ。
Hadoopで、かんたん分散処理ではモデルがシンプルでわかりやすく、さらにMapReduceを組み合わせて複雑な処理が可能であること、必要がなければMapだけ実装すればいいことが説明されている。冒頭ではこれまで1台で6時間6分35秒かかっていたログ集計処理が、Hadoopを使ってマスタ1台/スレーブ19台の構成に変えて5分34秒で処理が完了するようになった例が紹介されている。
| HP、Intel、Yahoo!がクラウドコンピューティングの研究開発環境 [2008/7/30] |
| 米Yahoo!と印Tataグループの研究所、クラウドコンピューティング研究で提携 [2008/3/25] |
| 米IBM、企業システムをインターネット化する「Blue Cloud」 [2007/11/16] |
| GoogleとIBM、米有名7大学へ並列計算の研究プラットフォームを提供 [2007/10/9] |
JavaScriptとCSSを圧縮してパフォーマンス、Juicer登場
【コラム】FileMaker×PHPで作る、簡単・便利なWebアプリ 第3回 FileMakerのCRUDはこれで完璧! - FMEdit()~FMDelete()まで
| トマトを食べれば痩せられる!? -京大ら、新発見の成分で肥満改善効果を実証 [21:00 2/10] |
| JAXA、液体シリコン中に残存する共有結合を観察 -大口径ウェハの実現に期待 [20:11 2/10] |
| NEDOなど、熱膨張が小さな樹脂複合材料ペレットの量産化に成功 [19:22 2/10] |
| 理研、一般顕微鏡を蛍光顕微鏡に強化できるアダプタを試作して性能を実証 [19:15 2/10] |
| 天の川のブラックホールが小惑星を飲み込んでいる - NASAが発表 [18:08 2/10] |
|
[小栗旬]映画監督役「なんか不思議」 映画「キツツキと雨」初日舞台あいさつ [15:35 2/11] エンタメ |
|
ラズウェル細木サイン入り、土用丑の日カレンダーが抽選で [15:20 2/11] ホビー |
|
【女性編】バレンタインチョコをあげたい芸能人ランキング [15:00 2/11] ライフ |
|
【男性編】バレンタインチョコをもらいたい芸能人ランキング [15:00 2/11] ライフ |
|
[戸田菜穂]第1子女児を出産 「感動でいっぱい」春にも仕事復帰 [14:51 2/11] エンタメ |