ここ数年で頻繁に耳にするようになったオブザーバビリティ(可観測性)。漢字を見れば、なんとなく言いたいことは分かるが、当初は深くは理解できなかったのが実情だ。

オブザーバビリティをざっくりと説明すると、システムのメトリクスやイベント、ログ、トレースのデータをリアルタイムに取得して、常にシステム全体の状態把握と改善ができる状態にすることを意味する。

昨今、企業のクラウド移行とDX(デジタルトランスフォーメーション)の進展に伴い、オブザーバビリティツールを導入する企業が拡大傾向にある。これまでは点で活用されていたクラウドが面での利用に変遷するとともに、コンテナやサーバレスなどクラウド技術が活用され、ITインフラ自体が複雑化しているが故に、採用が増加しているというわけだ。

本稿では、Datadogのオブザーバビリティツールを導入したマネーフォワードについて、同社 Enabling SREグループ グループリーダーの中谷貴人氏と、同テックリードの横山達男氏の話を紹介する。

  • 左から中谷氏、横山氏

    左から中谷氏、横山氏

オンプレミスとAWSのハイブリッド環境を運用するマネーフォワード

マネーフォワードでは、2012年の設立当初からオンプレミスの環境で自社のプロダクトを運用していた。2017年ごろからAWS(Amazon Web Services)環境に新規システムを構築し始め、2019年からは既存システムのAWSへの移行と同時にマイクロサービスアーキテクチャへの移行を進めている。現在もAWSへの移行自体は継続し、オンプレミスとAWSのハイブリッド環境で運用している。

  • マネーフォワードがAWSに構築したアーキテクチャの概要

    マネーフォワードがAWSに構築したアーキテクチャの概要

現在、同社はバックオフィスSaaS(Software as a Service)「マネーフォワード クラウド」や家計簿・資産管理アプリの「マネフォワード ME」をはじめ、コンシューマ向け、法人向けサービスなど50以上を提供している。

中谷氏は「AWSへの移行を開始して間もない当初は、OSSのツールを利用してシステム監視していました。しかし、プロダクトで障害が発生したときに、障害の原因を探ることにOSSの利用には専門的な知識が必要だったほか、メトリクスを分析して障害を予見するには自分たちで作り込まなければならず、高度な使い方をすることが難しいといった課題がありました。そのため、別のツールに移行することの検討を開始しました」と振り返る。

  • マネーフォワード Enabling SREグループ グループリーダーの中谷貴人氏

    マネーフォワード Enabling SREグループ グループリーダーの中谷貴人氏

オンプレミスからのクラウド移行により、プロダクト数も急増するとともに、プロダクトのマイクロサービス間の依存関係もますます複雑になっていく状況においても、システムの信頼性は担保しなければいけないという板挟みの中でモニタリングの重要性が高まっていたという。

また、OSSのツールを駆使してサーバにおけるメトリクスの定期的な確認を行っていたほか、アプリケーションエンジニアが権限を持っていないサーバで新しいアプリケーションを監視する際は、インフラエンジニアが設定を書き換えて監視している状態となっていた。

中谷氏は「単純にプロダクトの成長に合わせてインフラエンジニアを増やしていくのは難しい側面もあり、専門知識がそこまで必要ではない監視ツールに切り替え、インフラエンジニア以外のプロダクト開発チームでも運用ができる土台を構築しようと考えました。そこで、2017年からDatadogの利用を開始しました」と話す。

Datadogを採用した理由とは?

Datadogは、インフラ監視からアプリケーションパフォーマンス管理(APM)、デジタルエクスペリエンス監視、ログ管理、クラウドセキュリティといったツールを提供している。

マネーフォワードではコードパフォーマンス、インフラ、ネットワークパフォーマンス、データべース、ユーザーなど各種の監視に加え、APM、ログ管理、ブラウザやAPIテストを行うSynteic監視をDatadogで行っている。

当初、他ツールとの比較検討も行ったが、スモールスタートでDatadogの有効性を確認しながら利用し、次第に本格的に利用していくようになった。

  • ダッシュボード画面(1)

    ダッシュボード画面(1)

マネーフォワードにおけるDatadogの採用理由は、ずばり「使い勝手の良さ」と「課金がユーザー単位ではない」の2点だ。

Datadogの場合、高度な使い方でなくとも、簡単に利用できることに加え、ハイブリッド環境でも一元管理を可能としている。また、課金についてもユーザーごとの場合、ユーザーの切り出しが必要となるが、サービスごとの課金のため、あらゆるメンバーが簡単に使いはじめることができる点を評価している。

また、全社のアプリケーション実行基盤をAWS上で構築する動きに合わせて、Datadogの利用もスタートしたことから、標準の監視ツールとしても利用している。

横山氏は「スタートがしやすかったのも特徴です。例えば、Datadogのエージェントを1台のサーバに入れれば1台分の課金になるため、そこまでコストがかかるわけではありません。いきなり予算を決めて……、というよりは社内的にも動きやすいと思います。導入に際して過剰な予算をかけずとも、成果が作りやすいです」と説明する。

  • マネーフォワード Enabling SREグループ テックリードの横山達男氏

    マネーフォワード Enabling SREグループ テックリードの横山達男氏

使い勝手が良すぎるが故……

Datadog上のダッシュボードで可視化しているデータは、サーバ、リソースやアプリケーションの監視・管理を行う「Amazon CloudWatch」のデータなどだ。

サーバにエージェントを搭載すればベースのメトリクスは取れるようになることから、それまでは高度な専門知識が必要だからと敬遠していたプロダクト開発チームのメンバーでも見ようとする動機につながり、ハードルが下がったという。

また、定量的な効果としては、新しくサービスを構築して監視する時に従来はコミュニケーションコストなどのプロセスを含めると、半日かかっていたものがゼロになったという。

現在では100以上のマイクロサービスを監視し、プロダクト開発チームは情報を集約したダッシュボードでリソース状況やアプリケーションパフォーマンス、ログ、アラートなどを確認している。

  • ダッシュボード画面(2)

    ダッシュボード画面(2)

現状の課題感として、横山氏は「使い勝手が良すぎるが故に、てコストコントロールがしづらくなっている面はあります(笑)。今後はコストコントロールをできるような形にします。Datadogを継続して利用するために、コストをどれだけコントールしながら使うかはポイントです」と話す。

Datadogのさらなる活用を促進するために

現在、同社のEnabling SREグループでは単発でDatadogの運用で困っていそうなチームを支援しているが、今後はそのような動きを仕組み化したり、ダッシュボードをテンプレート化したり、使い方のガイドの作成をしたりするなど、標準化を進めていく方針としている。

今後の展望に関しては中谷氏は「以前と比べて、プロダクト開発メンバーがDatadogを活用して運用に携わっていますが、チームによってバラつきがあります。そのため、使い方ガイドの作成などの施策を行いながら、ある程度のレベルまでは引き上げられるように支援していきたいと考えています。すでに、プロダクト開発のメンバーが自律的にシステム運用ができきる土台は整いつつありますが、さらなる活用の促進を目指します」と語っている。

一方、横山氏は「人手がかからないようにしたいです。われわれをスケールさせても意味がない部分もあるので、開発者自身ができる状態にしたいです。また、中谷も話したようにチームによるバラつきがあるため、短期的には利用状況を可視化することで、標準化のラインを決めて、各チームで取り組み、共通項を見つけ出してガイドラインの基準に落とし込めればと考えています」と述べていた。