「日本を、IT先進国に。」をビジョンに掲げ、近年成長を続けるレバテック。今回、オブザーバビリティツールを導入した同社について、CTO室の藤咲浩氏とレバレジーズ システム本部 レバテック開発部 DevOps推進グループ SREチームの金澤伸行氏に話を聞いた。
レバテックのシステムが抱える課題
藤咲氏はレバテック入社前は大手外資系企業に勤めており、今年7月に同社に入社した。同氏は「レバレジーズグループは年商1000億円規模と事業成長していく中で、それを支えるシステムに大きな課題があり、技術的な負債や小規模なプロダクトから大規模に移行する中でケイパビリティが不足しているというのが実情です。事業と開発が一体となって進める体制やスキームの構築が経営課題となっています。何を優先するかを整理したうえで、解消していくことに取り組んでいます」と話す。
現実的には先に解決しなければならない課題も多く、藤咲氏は10月からDevOps推進グループのリーダーも兼務している。
そのうえで、同氏は「もともと前職などでアジャイルコーチをやっていましたが、大規模プロジェクトのQA(品質保証)やテストマネージャーとしてのキャリアもあったことから、大規模プロジェクトの知見などを活かしつつ、大規模組織向けアジャイルフレームワークの『SAFe』を活用し、アジリティを落とさないままレバテックのシステムを動かすことがミッションになります」と述べた。
現在、同社では「フリーランス領域」「転職領域」「新卒領域」「新規事業領域」の4つの事業を展開している。しかし、これらの事業間のシステムはバラバラに構築され、つぎはぎの状態になっているという。SaaS(Software as a Service)を除いて、主なシステムとしてAWS(Amazon Web Service)、データ分析基盤にはGoogle Cloudなどを利用している。
これらの領域すべてでオウンドメディアを持ち、オウンドメディアから登録済みユーザー、企業のプラットフォーム、社内管理システムへの連携はACL(Anti Corruption Layer)やマイクロサービスを通して、データ連携・管理を行っている。
そうした状況を受けて、藤咲氏は「何から整理して手をつけていくのか課題はありますが、なるべく事業に沿った形で再整理していきたいと考えています。事業貢献をメインとしている開発チームを支えるDevOps推進グループは、組織横断的にSRE(サイト信頼性エンジニアリング)や認証基盤セキュリティ、開発生産性改善などのチームを配置しています。DevOps推進グループが4事業の開発チームのケイパビリティ向上を支援するというものです。現在はQAのチームの立ち上げを検討しています」と説明した。
オブザーバビリティツールの選定で理由に挙げたもの
その中でも金澤氏が所属するSREチームでは、データベース移行やテストデータ環境の整備などを進めつつ、SLO(サービスレベル目標)やSLI(サービスレベル指標)の設定を含めて進めている。
同氏によると、SREの役割としては柔軟なインフラやバージョン管理などがある中で、現状で注力しているものがオブザーバビリティだという。従来は4~5年ほどDatadogによるメトリクス監視のみだったが、問題が起きてから対応するケースも多かったという。
金澤氏は「これまで事業と開発を紐づける共通の指標を持てていませんでした。そのため、新機能を追加するのか、技術的な負債を解消するかなどの意思決定をお互いに納得感のある形で動けていませんでした。それが原因で問題が発生することは分かりつつも、対応できないことがありました。現在は、SLIやSLOなど共通の指標を持ち、事業の一部に開発があるという意識を組織全体で持てるようにしていきたいです」と説く。
オブザーバビリティツールを導入するにあたり、同社ではどのような観点で選定を進めていったのだろうか。
その点について、金澤氏は「運用負荷の高さやリアーキテクトする際の不確実性などを自分たちで検知できていなかったということを前提に、そもそもオブザーバビリティに関する知見がなく、これからスタートするという形でした。開発組織全体の文化として定着させるためにも手厚いサポートがあり、課金は組織の体制により金額も変わるということが事前調査で判明していたことから、そのような観点で比較しました」という。
同社ではオブザーバビリティツールとして、New Relic、Datadog、OpenTelemetryの3つを比較した。同氏は「正直機能面はどれも変わらないという結論でした。しかし、サポートを考えたときにNew Relicはライセンス課金でサポートしてくれることから、別途費用がかからず、プランも変わらないので分かりやすいものでした」と振り返る。
まず、OpenTelemetryはサポートがないことから早々に断念。Datadogの場合はサポートを受けるために別途プランに入る必要があり、必要なタイミングでサポートを入れるなど柔軟な使い分けはできるプランではあるが、選定時点における同社の状況からするとゼロから構築していくために、包括的なサポートが必要であると判断した。
また、将来的なリプレイスや新規サービスの拡大を見据えると、Datadogは利用する機能を増やすたびにデータ転送量での課金となり、コストがかかると想定されたため、ユーザー課金によるコストを考えたうえではNew Relicの方が現状ではマッチすると考えたという。つまり、レバテックが置かれている状況に対して、最も適していたのがNew Relicだったというわけだ。
金澤氏は「移行に際しては自分たちですべての作業を行えるわけではないことから、開発チームの協力も必要でした。そのため、半年間は社内でオブザーバビリティの必要性やSREの定義などの勉強会などを開催し、共有しました。また、開発チームではシステムの調査がスムーズにできない課題感は持っていたことから、移行する際は理解を得ながらできたと思います」と述懐していた。
オブザーバビリティツールの導入で得られた効果
結果として、今年5月から同社は「New Relic APM」「同Infrastructure」「同Synthetics」「同Dashboard」「同Alerts & AI」「Errors Inbox」「Workloads」といったNew Relicのツールを活用している。
では、実際に導入してみての効果についてはどのようなものがあるのだろうか。金澤氏は「5月に移行が完了し、開発チームに使ってもらっていますが、これからのためハッキリした数字は出せていません」としながらも、アラート数を従来比で4割削減できているという。
その理由について、同氏は「移行するタイミングでそれまでのアラートの設定を見直しました。従来はメトリクスベースのCPU使用率などでアラートを発報していましたが、アプリ側のエラーをはじめ、ユーザー側に近いアラートの発報に改めました」と語る。
また、課金体系的なこととして、Datadogの利用時はコストがかかるため検証環境に入れられていなかったのですが、New Relicの場合は検証環境に入れているので可視化された情報が増えた結果、キャッチできるものが増えたとのことだ。
現在、システム全体の8割程度にNew Relicの導入が完了しており、導入時にビジネスインパクトの大きいフリーランス領域から着手してきたため、一部の転職領域のシステムについては今後移行を進める予定だ。
ユーザー企業内でのオブザーバビリティのスキルアップを図る取り組み
取材当日には、New Relicユーザーにおけるオブザーバビリティのスキルアップや、社内コラボレーションを目的としたGameDayが開催された。
GameDayでは各チームは3~4人規模のチームごとに分かれ、チーム対抗戦でそれぞれ実際にNew Relicで障害発生している環境を調査し、得点を競い合うというものだ。
ステージ1~6まであり、New Relicの基礎力を確認するクイズが出題され、ステージ1~5は基礎問題、6は応用問題になっている。
ステージ内の各問に正解するとポイントが加算され、速く回答したチームにはボーナスポイントが加算される。
クイズの確認・回答はNew Relicが提示するGoogle Formで行い、チームごと・ステージごとの提出は1回のみとなり、各ステージごとにランキングを表示。チーム名の誤りや複数回答、不正などがあれば減点対象になる場合がある。
その狙いについて、New Relic 技術統括 コンサルティング部 ソリューションコンサルタントの髙木憲弥氏は「当社におけるオブザーバビリティの活用支援の1つです。ただの運用ツールと考えていると属人化してしまい、運用担当者しか使わないと機会損失につながるためNew Relicを共通言語として、メンバー間で同じ画面を見ながら、調査を行うなど、全体の底上げを図る側面があります。また、ゲーミフィケーションを交えてチーム間のコラボレーションを行い、ノウハウの横展開によりスキル向上を目指してもらうものです」と説明。
GameDayについて、金澤氏は「5月に移行が完了して半年ほど実際に使い、もちろん可視化されたデータが増えたため便利になっているのは間違いないです。しかし、痒いところに手が届いていない部分で質問を受けることがあることから、改めて課題を洗い出して解消し、New Relicの機能を使いこなせる状態になればいいと感じています」と強調する。
一方、New Relicの活用に関する展望について尋ねると同氏は「期待値は高く、少し前と比べると想像できないくらいさまざまな要望をもらいますし、自分たちのチームで実践して社内のライトニングトークで発表する人もいます。社内では活用法について共有するチームもいるほか、使いこなしてくれるチームもあれば、そうではないチームもいるので、その場合は私たちがスポットで入って支援しています。New Relicを単なる開発ツールにとどめたくないと考えており、Slackのように社内全員が見るツールにして情報を集約していけたらベストですね」と力を込める。
また、藤咲氏は「現状ではさまざまなツールがさまざまな文脈で使われている中で、ビジネスリスクをふまえたダッシュボードが欲しいと、いつも思っています。そうした観点からするとNew Relicのダッシュボードは、それが実現できる可能性があるのかと感じており、ビジネスリスクと紐づいたシステム監視が実現できれば良いなと考えています。システムが動かなくても事業が止まらない視点を開発、事業双方が責任を持って事業運営をしなければならないので、そこに対する期待はあります」と述べていた。