Splunkは10月3日、都内でプライベートイベント「.conf Go Tokyo」を開催。同イベントにおいて、au PAYの残高管理システム開発チームが「au PAYを支えるシステム基盤の運用高度化とビジネス貢献 ~ Splunkとリアルタイムデータの力」と題して講演を行った。

講演を行ったのは、KDDI 技術統括本部 情報システム本部 基幹システム1部 開発2G 高垣湧成氏と、技術統括本部 情報システム本部 基幹システム1部 開発2G 鈴木萌那氏。両氏は、au PAYのインフラ構築および残高管理システムの開発を行っている。

  • 講演を行ったKDDI 技術統括本部 情報システム本部 基幹システム1部 開発2G 高垣湧成氏(左)と、技術統括本部 情報システム本部 基幹システム1部 開発2G 鈴木萌那氏(右)

    講演を行ったKDDI 技術統括本部 情報システム本部 基幹システム1部 開発2G 高垣湧成氏(左)と、技術統括本部 情報システム本部 基幹システム1部 開発2G 鈴木萌那氏(右)

同社は、2022年から2024年にかけての中期経営戦略において、5G通信事業を核として、金融、DX(デジタルトランスフォーメーション)、LX(ライフトランスフォーメーション)、エネルギー、地域共創の5つの重力領域の事業拡大を図っていく「サテライトグロース戦略」を掲げている。

5つの重点領域のうち金融に大きく関わっているのが、キャッシュレス決済サービスの「au PAY」だ。同社はau PAYを金融事業への入り口となる重要な接点として位置づけ、グループ各社と連携を取りながら事業拡大を図っている。

au PAYの2023年8月時点の会員数は3,300万人超。同サービスは、2014年にスタートしたau WALLET プリペイドカードが始まりで、2017年にはApple Payを開始し、QUICPayでの非接触決済がiPhoneで利用可能となった。そして、2019年にau PAYというサービス名でコード決済のサービスを開始した。

  • au PAYの概要(出典:KDDI)

    au PAYの概要(出典:KDDI)

au PAYのシステム基盤の要「残高管理システム」

au PAYのシステム基盤は大きく3つに分かれている。au PAYアプリやau PAY プリペイドカードのフロント部分があり、それ以外にSoE(System of Engagement:顧客とのつながりの領域)、SoR(System of Record:情報を記録するためのシステム)領域のシステム群など、20を超えるシステムがある。これらの中で、要となっているのがau PAYの残高管理システムだ。

  • au PAYのシステム群(出典:KDDI)

    au PAYのシステム群(出典:KDDI)

au PAYの残高管理システムは顧客の財布の役割を担っており、システムのメイン機能としてはチャージ、決済、残高照会の3つある。秒当たりのトランザクション処理件数(Transaction Per Second:TPS)は、チャージが200TPS以上、決済が100TPS以上、残高照会が1,400TPS以上となっている。

ほかにも、本人確認、各種バッチの実行、管理画面の提供などの機能を有している。なお、同社は2022年の6月に性能と可用性向上を目的にシステム更改を実施した。

残高管理システムはメインサイトとDRサイトに分かれており、冗長構成をとっている。アプリサーバは社内クラウド基盤上に構築しており、メインサイトではデータベースが2面構成になっているほか、パブリッククラウドにレプリカデータベースを構築するなど、障害が起きてもすぐに立て直せるような構成になっている。

  • au PAY残高管理システム構成概要(出典:KDDI)

    au PAY残高管理システム構成概要(出典:KDDI)

オブザーバビリティを向上するための施策とは

au PAYサービスも着実に成長しており、社会的にも影響が大きくなってきたことから、システムがどのような状態であるかを把握するオブザーバビリティ(Observability:可観測性)向上が重要となってきた。

これまでもZabbixでアラーム監視を、JENNIFERでトラフィック監視をしていたが、システム処理の状況や正常応答率などの指標に関しては、サーバにログインし、手動でコマンドを実行するCLI(Command Line Interface)上で確認していた。運用や監視を続けていく中で、これらの作業に時間がかかっており、オブザーバビリティ向上を目指していく上で課題になっていたという。そこで、同社はログ解析をGUIによりリアルタイムで行うため、Splunkを導入した。

  • オブザーバビリティ向上に向けSplunkを導入(出典:KDDI)

    オブザーバビリティ向上に向けSplunkを導入(出典:KDDI)

Splunk活用に向けアプリサーバのログを転送しているが、ログをそのまま転送してしまうと、個人を特定できる情報が含まれているほか、不要な情報もあり、1日あたり数10GB以上の容量になってしまう。そこで同社では、ログを転送する前に個人を特定できる情報やバッグメッセージなどの不要情報を削除することでログを整形。1日あたり数百メガバイトまで圧縮して転送を行っている。

ダッシュボードを活用した運用の高度化

同社はこれらのSplunkデータを活用して、ダッシュボードによるレジリエンス(対応力)の向上に取り組んだ。

具体的には、対向システムごとの処理状況、機能別や加盟店別のKPIのほか、au PAYの利用取引集計などがわかるダッシュボードを作成し、さまざまな項目で見える化を図っている。

各対応システムとの処理状況を確認するためのダッシュボードでは、HTTPのステータスコードの内訳のほか、視認性を高めるため応答数を線形グラフで表示している。

  • 各対応システムとの処理状況を確認するダッシュボード(出典:KDDI)

    各対応システムとの処理状況を確認するダッシュボード(出典:KDDI)

au PAYの重要なKPIである決済、チャージ、残高照会の障害について、瞬時に異常を把握できるように作り込んでいるダッシュボードもあり、応答率を値によって青、オレンジ、赤と色分け表示している。

「一目で普段と違う傾向がわかるように、異常がある場合に色分けをしているので、すぐに何が起きているのかを知ることができるようになっています」(高垣氏)

特定の機能に絞り込んで詳細に見ていくためのダッシュボードもあり、決済機能では成功率、件数、平均や最大のターンアラウンドタイムを表示。各種指標を波形のように折れ線グラフや円グラフ、表を使ってどのAPIのリクエストが多いのかを把握できるようにしている。

  • 特定の機能に絞ったダッシュボード(出典:KDDI)

    特定の機能に絞ったダッシュボード(出典:KDDI)