データプラットフォーム本部 データウェアハウスチームの櫻井史彦氏

Yahoo! JAPAN(ヤフー)は9月13日(現地時間)、米国カリフォルニア州アトランタで開催されたTeradataユーザグループ主催の年次カンファレンス「TERADATA PARTNERS CONFERENCE 2016」にて、自社で取り組むデータ活用事例について紹介した。

ヤフーでは、ニュースサイトや検索エンジンを始め、メール、オークション、ショッピングサイトなど、複数のサービスを提供している。そのデータボリュームは月間680億PVにもおよぶという。

同社のデータプラットフォーム

そんなサービスを支える同社のデータプラットフォームは、Hadoopをベースに、RDB、NoSQL、Object Storage、DWH(データウエアハウス)を活用しており、中でも、DWHは1日30万クエリという膨大な量が実行されている。櫻井氏は「ヤフーグループは、多数のデータを抱えたマルチデータカンパニー」だと話す。

DWHを活用し始めた2002年は、100名ほどの限られたメンバーのみが利用していた。その後、より多くの種類かつ大規模データを格納し、社内の幅広い利用者に解放。2016年には、利用者が500名ほどに増加し、1日あたり1.7PB/30万クエリという膨大なデータ量に変化していった。

DWHの利用者とデータ量は大幅に増加

しかし、利用者がさばくクエリが増加するにつれ、「データ内容や必要なデータが格納されている場所が分からない」「社内wikiの情報が陳腐化していく」といった課題も目立つようになってきた。ネットワークやシステムへの負荷も急増し、クエリがさばけなく事態も発生した。そのため、マシン性能の強化やパフォーマンス改善への施策を重ねるとともに、大規模Hadoopクラスタを構築。Teradataと併用して負荷分散を行った。

DWHの将来像

これらを受け、Teradata以外のデータソースも統合し、1カ所でDWHを運用する「Logical DWH」構想を進めている。利用者から挙がっていた「SQLだけではなく、さまざまな分析クエリを実行したい」「構造化、非構造化データをつないで分析したい」「複数データソースにまたがって分析したい」「これらを、すべて一カ所で行いたい」といった要望にも応えられるという。

「Logical DWH」構想

複数のサービスから取得する非構造化データを統合的に分析することで、サービス間をまたいだ分析も可能になり、マーケティング担当者が新たなマーケティング施策にも活用するといった用途にも活用できるという。

現在、Teradata QueryGridと併用する形で、分散処理基板であるPrestoの活用も進めている。Prestoとは、Facebook発のOSSプロジェクトで、メモリーベースの高速なクエリエンジンとさまざまなデータソースにつなげられる特長がある。Teradataも開発に参加している。「まだまだ発展段階のプラットフォームだが、膨大なデータ量を扱うヤフーで活用することで、開発に貢献できるのでは」と櫻井氏は話す。

今後は、Teradata社のR&D部署「Teradata Labs」と協力し、複数のデータソースに対する統一的なアクセスや、次世代データ分析基盤に必要な機能の共同開発、同社が持つユースケースとビッグデータを用いた共同検証などを進めるとしている。