MIXI「家族アルバムみてね」が実現したオンデバイスMLの実装とGPUコストカットの物語 - 1億円から1357万円まで削減

MIXIはこのほど、エンジニア・デザイナー向けのカジュアルなミートアップイベント「MIXI MEETUP！ーTECH & DESIGN DAYー」を開催した。本稿では「月間4億メディアの画像解析を救え！みてね発・オンデバイスMLで挑む圧倒的コストカット作戦」と題して行われたセッションを紹介する。

家族と写真や動画を共有できるアプリ「家族アルバムみてね」（以下、「みてね」）では、すべての写真と動画をサーバサイドの機械学習パイプラインで解析していたという。しかし月間のアップロードメディア数が4億を超え、解析の正確さと速さの要求に伴ってGPUコストも増加した。

そこで考案されたのが、オンデバイスML（Machine Learning：機械学習）の活用だ。オンデバイスML技術を調査し、精度や速度、電池消費、ユーザー体験を検証する中で、ある程度の処理を端末側にオフロードすることでサーバのGPUコストを削減できる可能性が見えてきたそうだ。「みてね」の壮大なコストカット作戦のストーリーを紹介しよう。

ユーザー数が右肩上がりで増加している「家族アルバムみてね」

MIXIが運営する「みてね」は、子どもの写真や動画を祖父母など招待した家族だけに共有できるアプリ。写真および動画は無料で無制限にアップロード可能で、コメント機能などで遠方に住む家族ともコミュニケーションが取れる。

2015年4月のサービス開始以来、7言語に対応し175の国と地域へ展開。2025年7月には世界累計利用者数が2700万人を突破した。ユーザー数の増加に伴い、アップロードされるメディアの数は月間4億を超えるという。

ユーザー数が右肩上がりで増加している

顔検出だけで約1億円費用、どうやってGPU依存から脱却したか？

ユーザーが「みてね」にアップロードした写真や動画は、顔検出など機械学習による解析が実行される。解析結果はパイプライン処理の後にサーバに格納される。

みてねの顔検出パイプライン

MIXIの開発本部でAIモデリングを担当する橋口昂矢氏は「2022年2月ごろ、月間のアップロードメディア数は1.8億ほどだったが、顔検出の処理だけで約1億円のGPU費用が発生していると知り驚いた」と衝撃のエピソードを披露した。

MIXI 開発本部たんぽぽ室 AIモデリンググループ橋口昂矢氏

2022年2月当時の顔検出パイプラインはAWS（Amazon Web Services）が提供するAmazon SageMakerのGPUインスタンス上に構築されており、推論を最適化するTensorRT化したS3FD（Single Shot Scale-invariant Face Detector）が動作していた。

しかしこのモデルは誤検出や未検出も散発しており、コスト面だけでなく精度面でも課題を抱えていたとのことだ。

2022年2月当時の状況

アップロードされるメディアの数が急増しモデルの改善が急務となっていたが、当時のみてね事業部では新機能の開発スケジュールなどが先の予定まで入っており、すぐに対応できるiOS / Androidエンジニアのリソースが不足していた。

そうした状況の中で、みてね事業部ではなく開発本部に所属している橋口氏が支援することになった。まずはサーバ側の効率化を進めた後で、オンデバイスでの推論に取り組むことにしたそうだ。

サーバ側の新モデルを検討した結果、顔検出の精度が高く遮蔽や角度にも強いRetinaFaceの採用を決めた。「みてね」のユーザー層に合わせた検証用のデータセットを作成して比較した結果、旧モデルのS3FDと比較して、誤検出率が10.85%改善、未検出は1.3%改善された。CPU実行での推論時間は約2000ミリ秒と遅いが、「みてね」の解析パイプラインではリアルタイム性が不要のため、許容される。

新モデルの比較

ResNet50ベースのRetinaFaceの導入に際しては、モデルをTensorFlow Liteに変換して不要なオペレーションを削除。さらに8ビット量子化（INT8）し、CPUでも実行可能とした。また、Amazon SageMakerからAmazon EKS（Elastic Kubernetes Service）へ移行した。

これにより、Amazon SageMakerおよびGPUへの依存から脱却。みてねの他のAPI（Application Programming Interface）と同じEKSで運用できるようになった。その結果、従来比45.7%のコスト削減に成功したという。

コスト削減と技術的負債の解消につながった

オンデバイスのためにさらなる軽量化へ

続いて、オンデバイスMLを実現するためのさらなる軽量化が図られた。ResNet版のRetinaFaceはモデルサイズが59メガバイトでCPU実行の推論速度は約2000ミリ秒だ。サーバ処理では問題ないが、モバイル端末で動かすためには軽量化が必要となる。

そこで橋口氏は、backbone（モデルの主要な特徴抽出アーキテクチャ）をResNetからMobileNetへ移行した。加えて、前処理・後処理をモデルに統合してアプリ側の実装負担を減らしている。開発者はTensorFlow Liteを呼び出すだけで済む設計だ。

その結果、モデルサイズは59メガバイトから942キロバイトと62分の1に縮小。推論速度は2000ミリ秒から200ミリ秒へ短縮された。精度は99.22%から98.64%へ低下したが、これは小さすぎる顔やピントの合っていない顔を検出の対象としなかったためであり、サービスへの影響はほとんどないとのことだ。

橋口氏は技術的に工夫した点として「Dynamic-Sized Tensorを採用し、前処理・後処理をモデルに内包した。これにより多様なアスペクト比の画像をそのまま処理できるようになったほか、クライアントのコードがシンプルになり保守やレビューのコスト削減にもつながった」と話していた。

サーバコストは2022年2月当初の約1億円から、約1357万円まで削減できた。トータルでは実に86%の削減に成功した計算だ。