2024年2月15~16日の2日間、実に4年ぶりの対面開催となった「Developers Summit 2024」。今年も多くの企業が持てる技術を披露するなか、株式会社マイナビは全社データ基盤のモダナイズをテーマとしたセッションを発表した。登壇したデジタルテクノロジー戦略本部 蛭田氏と、よそじさん(ハンドルネーム)の講演をダイジェストする。

マイナビ全体のデジタル戦略の立案・実行を担うデジタルテクノロジー戦略本部

セッションのタイトルは「マイナビの全社データ基盤のモダナイズ」。登壇したデジタルテクノロジー戦略本部 蛭田 彩代子氏は、2023年に創業50周年を迎えたマイナビにおける同本部の役割について説明した。

「マイナビのIT職やWebマーケティング職は就職情報・転職情報・アルバイト情報といったマイナビが展開するサービスに紐づく各事業部に所属していました。しかし、会社として50年、100年先の未来を見据え、デジタル技術の急速な進歩に適応するために各事業部に分かれていたIT・Webマーケティング部門を集約しました。これが2022年10月に設立したデジタルテクノロジー戦略本部です」(蛭田氏)

  • 株式会社マイナビ
    デジタルテクノロジー戦略本部 IT企画推進統括部 IT企画推進部 IT企画推進3課
    蛭田 彩代子 氏

  • マイナビにおけるデジタルテクノロジー戦略本部の位置づけ

同本部は「“Drive Digital Innovation”をミッションに掲げ、既存の枠組みや既成概念、制約や技術を超えることを共通の理想像として、一人ひとりが楽しみながらイノベーションを生み出すことを目指しています」と蛭田氏。会社全体のデジタル戦略の立案・実行を担い、今回の全社データ基盤モダナイズ施策も全社を横断するかたちで同本部が牽引した。

工程ごとにあったエンジニアへの大きな負荷

デジタルテクノロジー戦略本部でデータソリューション領域を担当し、“データの民主化”を業務の柱に据えているというよそじさん。「収集」→「加工」→「蓄積」→「検索」→「活用」というデータ活用の一般的な流れを示したうえで当時の課題を指摘した。

「まず「収集」「加工」の段階では、データ連携や変換に際し、仕組みをつくる必要がありました。つまり、エンジニアがシステムを構築する必要があるということです。また次の「蓄積」段階においても、データベースを維持するためのエンジニアの作業工数、さらにはコストも課題となっていました。さらに、複雑なクエリに対応することも多く、結果としてスピードが出ないなど、ここまでの工程でも課題は山積の状況でした」(よそじさん)

  • 株式会社マイナビ
    デジタルテクノロジー戦略本部 デジタルプラットフォーム統括本部
    データソリューション統括部 データ活用推進部 データ活用推進1課 課長
    よそじさん(ハンドルネーム)

このあとにつづく「検索」「活用」の段階においても、どこにデータがあるかはエンジニアが探してみないと分からない、活用の際、Excelのグラフを毎回つくり直す必要があって再利用ができないなど……、データ活用の工程全体を通しても課題はあちこちにあり、総じて負荷が大きいものばかりだった。

なお、モダナイズ以前のデータ基盤はすべてオンプレミスで構築されており、「収集」「加工」のデータプレパレーションツールには「Paxata」、「蓄積」にはデータクラウドとして「SQL Server」、そして「活用」におけるBIツールとして「Tableau」が導入されていた。そして、「検索」についてはまだツールが導入されておらず、「日々データカタログが欲しいと思っています」とよそじさんは今後への意欲も示した。

各所に点在していた旧システム環境の課題

今回のモダナイズに着手する以前、システムはすべてオンプレミスで構成されており、SQL ServerからWindowsバッチを介してデータ連携し、別のSQL Serverに取り入れたものをBIツールやデータプレパレーションツールで利用していたという。ここで別のSQL Serverを使うのは負荷に対応するためで、リード専用のデータマートに移し、次の工程へと送っていた。この旧環境における課題をよそじさんは次のように話した。

「まずデータ連携では、Windowsバッチで処理速度が遅いうえ、開発できるエンジニアの確保が難しかったほか、ETLがSQL Serverに依存し、技術の見直しが困難な部分もありました。またツールによるバージョン管理がしっかりできていない課題もありました。データマートにおいては、オンプレということで調達に時間がかかり、スペック増強も物理的に難しいのに加えて、VMでも限られたリソースを割り当てる際の管理が大変でした。ディスクサイズを増やせず、データ長 が変わった場合の対応は大きな負荷でしたし、スペックを気にしてユーザーを気軽に増やせないのも課題でした」(よそじさん)

  • モダナイズ前のデータ基盤構成と各所のシステム課題

さらに活用の部分では、「インフラのスペックが6年前のものであり、BIツールの表示が遅かったことも課題であった」とよそじさん。データプレパレーションツールではユーザーの利用予測が難しく、ディスクサイズが足りなくなる事態も起きており、システムの各所に個々の課題があったという。

モダナイズのテーマは「負荷軽減」と「体制強化」

こうした課題に対して、オンプレ環境のEOLに伴いスタートした今回のモダナイズでは、AWSへのクラウドシフトによるレガシー技術からの刷新を敢行した。

まずデータ連携の部分でWindowsからLinuxへとOSを変更。データ転送ツールにEmbulkを採用してデータ加工の依存解消を図った。またワークフローエンジンとしてPythonで書けるApache Airflowの採用でエンジニアが対応し易くし、並列化の実施で処理速度を改善。また、サーバーレスのMWAAによって運用コスト削減につなげた。

データレイクにはAmazon S3を選択。よそじさんは、「S3はメンテナンスがほぼ不要で、スケーラビリティも確保できるうえ、Snowflakeとの相性がとても良い」ことが採用の理由だという。また、データマートは前出のSnowflakeで、スケーラビリティ確保やウェアハウス分離による負荷分散を実現した。加えて、利用時のみの即時立ち上げが可能なため、コスト削減にもつながったという。SaaSの活用で保守が不要になり、「本来目指していたデータ民主化に注力できるようになったのも良かった点だと思っています」と語った。さらにはGitHubによってバージョン管理とレビュー体制を整備し、オペレーションミスが減ったとのことだ。

  • モダナイズされた全社データ基盤

こうした技術を選定していくうえでは「組織的な観点」と「技術的な観点」、双方のポイントをあげたとよそじさんが振り返る。それぞれの観点には下記が当てられた。

<組織的な観点>
●人的コストを含めたTCOの検討
●仕様変更に事業部ユーザーが対応できるか
●人材が多く確保できる言語・技術の選択
●チーム全体で運用・保守できるもの
●他組織との連携

<技術的な観点>
●要件を満たすこと
●5年先のニーズを見据えて耐えることができ、大きな改修・廃止が発生しないもの
●ベンダーロックインされにくいこと

プロジェクトを進めるうえでは、非機能要件の事前検証と社内調整から進めていき、OS変更やアップデートによってコンテンツ移行がうまくいくか、データを想定通りデータマートまで流せるか、各処理で同じデータを流せるか、既存オペレーションを実現できるか、コンテンツをいままで通り使えるかなど、段階的な確認ポイント設けながら進行し、環境移行と並行稼動の時期を設定して移行を実施した。

今回のプロジェクト振り返りよそじさんは、「良かった点としては、向こう5年でTCOを約8,000万円削減できたこと、データ連携速度が1時間以上短縮できたこと、エラー対応時間が年間で100時間以上削減できたこと、ユーザーを増やしやすくなり、新たなデータ活用に対応できるようになったこと、この4点があげられます」とし、一方で反省点もあったと次の3点をあげた。

「まずは技術選定時に把握しきれなかった仕様があったということ。次にユーザー部門との調整時間の見積もりが甘かった、他部署が担当する機能の仕様理解不足がありました」(よそじさん)

最後によそじさんは、今回のモダナイズでテーマとしていた「エンジニアの負荷軽減」および「システムの運用・人材採用がしやすい体制づくり」について次のように講演を締めくくった。

「データ活用の各フェーズにおいて、やはりエンジニアの業務負担は非常に大きいです。マイナビでは、技術刷新によってエンジニアの負担軽減と、運用しやすい体制づくりに取り組んでいます。また、モダナイズが進んだことでデータ民主化に注力する時間が増えたため、今後は自部署以外とも力を合わせ、民主化に資する活動を行っていきたいと思います」(よそじさん)

募集ポジション:データエンジニア、データサイエンティスト、開発エンジニア、システムエンジニアなど複数職種
制度:リモートワーク、時差出社、ABW型オフィスの導入
福利厚生:オンライン学習ツール、資格取得支援、書籍購入の補助制度
詳細はIT採用サイトから

登壇資料のダウンロードはこちら

関連リンク


マイナビ
データエンジニア/データサイエンティスト募集要項
IT採用サイト
マイナビエンジニアブログ

[PR]提供:マイナビ