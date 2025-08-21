サマリ

AI活用の狙い ・組織目標である「開発生産性向上」のためAIレビューツールを導入したものの、「本当に効果があるのか」という投資対効果(ROI)を定量的に説明できないという課題に直面した。

・ツールの継続利用や予算獲得のため、経営層を納得させる客観的なデータが必要であった。 Findy Team+による検証方法 ・「感覚」頼りの効果測定から脱却するため、開発生産性可視化ツール「Findy Team+」を導入し、AIレビューツール導入前後のデータを詳細に分析した。

・Findy Team+のサイクルタイム分析やプルリク一覧データを活用し、開発プロセスにおける各工程の時間を定量的に測定した。 定量的成果 ・プルリクエストのオープンからマージまでのリードタイムを45%短縮

・1時間あたりのPR処理数で示すスループットは82%向上統計的な有意差も確認でき、ROIを明確に証明することに成功した。 定性的な変化 ・AIが「初期レビュワー」として機能し、レビューの観点漏れを防ぎ、品質が平準化。開発者は「セーフティネット」としての安心感を得て、より本質的な設計などの判断に集中できるようになった。

・ツールの価値がチームに還元し、利用率は当初の約半数から9割以上に向上した。 顕在化した課題 ・指摘が不適切で「ノイズ」になることもあり、これが続くと開発者がAIの指摘を見なくなる「AI疲れ」を引き起こすリスクがあった。

・AIは「なぜそのコードを生成したか」という思考プロセスを示さないため、判断の背景がブラックボックス化しやすいという課題も浮き彫りになった。 今後の展望 ・インシデントの知見をAIに反映させることで、ツールを単なる効率ツールから組織の「品質保証装置」へと進化させることを目指す。

・今後はFindy Team+に対し、より高度な分析の自動化や、AIレビューの反映率といった質的なフィードバックの可視化を期待している。

多くの企業が生成AI(ChatGPT、Copilotなど)の導入が加速する一方で、プルリクエストやドキュメントの爆発的増加、レビュー滞留、判断記録の欠落といった「見えない問題」が開発現場を覆い始めています。

原因はAIそのものではなく、効果を数値で確認できる可視化基盤の不足です。Findy Team+ はそのギャップを埋め、AI活用の投資対効果を客観的に証明します。

本記事では、Findy Team+を活用してAIコードレビューのROIを「リードタイム45％短縮・スループット82％向上」という数字で示した Sansan Bill One Engineering Unitの取り組みを紹介します。

Sansan株式会社 Bill One Engineering Unit について教えてください。

私たちが所属しているBill One Engineering Unit は、Sansan株式会社が提供する経理DXサービス「Bill One」の開発を担っています。私たちのミッションは、事業成長を技術で力強くリードしていくことです。

技術本部全体で「開発生産量を前Q対比で30%増/人とする」という、かなり野心的なOKRを掲げています。 この高い目標を達成するため、組織全体でAI活用を重要な戦略と位置づけています。

単にツールを導入するだけでなく、機能開発における「企画からリリース」までの全プロセスにAIを組み込み、リードタイムを最小化する検証も進めています。

AIツール活用の目的や目標について教えてください。

Bill One Engineering Unit がAIツール活用に至った初期の目的は、「組織全体の生産性向上」でした。

特に、開発プロセスの中で大きな時間を占めていた「レビュー」のリードタイム短縮が急務と考え、AIレビューツール「PR-Agent(現Qodo Merge)」の導入を決定しました。

当時はまだAIツールの効果に懐疑的な声も多い中、まずは具体的な課題解決からスモールスタートした形です。

将来的には、「人が考え、AIが手を動かす」開発スタイルを当たり前にし、AIを開発プロセス全体に組み込むことで、企画からリリースまでのリードタイムを最小化することを目指しています。

なぜAIツールの効果検証を行おうと思われたのでしょうか?

AIツール導入における最大のハードルは、「本当に投資に見合う成果が出ているのか」を経営層にどう数値で示すかでした。

実際にライセンス費や運用工数が発生する以上、CTO をはじめとする決裁者からは ROI を明確に示すことが求められていました。

感覚的に「速くなった」と感じるだけでは、ツールの継続利用や予算獲得の説得材料として不十分です。

この課題を解決するため、開発プロセスのデータを客観的に分析できる Findy Team+ を活用した効果検証に踏み切りました。

「感覚」を「数値」に変え、AI導入の価値を証明することが、検証の大きな動機でした。

AIツールの定量化・可視化をすることのメリットをどう捉えていらっしゃいますか?

AIツールの効果を定量化・可視化するメリットは、経営層への説明責任を果たすだけに留まりません。

1つ目は、組織内の温度差をなくすこと。

「リードタイムが何%縮まった、スループットが何倍になった」という具体的な数字があれば、まだ半信半疑のメンバーも「これは使う価値がある」と腹落ちしやすいんです。

2つ目は、議論の共通言語になること。

エンジニアは感覚よりデータを信じる傾向があります。客観的な指標があれば、「好き・嫌い」の感情論ではなく「この数値をさらに改善するには?」という建設的な会話にすぐ移れます。

3つ目は、継続改善のトリガーになること。

数字で伸び代が可視化されると、チームはすぐ次の打ち手を考え始めます。 AIツールの ROIを示すことで、導入後も PDCA を高速に回す文化が自然と根づくんですよ。

具体的な効果・変化はありましたか?

Findy Team+を用いた効果検証の結果、目覚ましい成果が数値として現れました。

AIレビューツール導入後、プルリクエストのオープンからマージまでのリードタイムは平均35.67時間から19.62時間へと45%短縮し、1時間あたりのPR処理数で示すスループットは82%も向上しました。

具体的な検証方法としては以下のように実施いたしました。

Findy Team+によるAI導入効果の検証方法

分析対象 バックエンド および フロントエンドのPRデータ AIレビューが明確に紐づいたPRのみを対象に抽出



対象メトリクス サイクルタイム分析ページによる視覚化補助 9月途中からAI導入しており、Afterの10月以降が全体的に改善されているのを視覚的に把握するのに活用



プルリク一覧のデータを用いた詳細分析 クレンジングした定量データの取得により詳細な統計分析の元データとしての活用 詳細分析手法 異常値除去：オープン～マージ時間の外れ値を四分位範囲(IQR)で除外 平均・標準偏差算出とt検定で統計的有意性を確認 スループット計算：「1時間あたりのPR処理能力」に変換 詳細分析結果(Before/After比較) 指標 導入前平均(h) 導入後平均(h) p-value コミット～オープン 24.77 16.28 0.005195 オープン～レビュー 10.34 6.59 0.000000 レビュー～アプルーブ 15.43 8.14 0.000000 アプルーブ～マージ 9.54 5.39 0.000000 オープン～マージ 35.67 19.62 0.000000 リードタイムは 45%短縮 スループット(1時間あたり処理PR数)は 82%向上 Findy Team+から取得したレビュー工程データを元に「p-valueによる有意性検定」「ボンフェローニ補正」による統計的有意差が確認でき、 AIの効果が明確に定量化 されました。

これによりAIレビューが投資に見合う効果を持つことを客観的に証明でき、Bill One Engineering Unit は現在も PR-Agent(現Qodo Merge)を活用できています。 また、定性的な面では、 「AIが初期レビュワーとして機能する」 ことでレビューの観点漏れが減少し、開発者はより本質的な設計の議論に集中できるようになりました。

当初約4割だったツールの利用率は 現在9割以上 に達し、「AIによる一次レビュー→人間による確認」というフローが文化として定着しつつあります。

これにより、開発者の心理的負荷も軽減にも繋がっています。 効果検証を通じて見えてきた、AIツールのデメリットや課題はありますか? AIツールの導入はメリットばかりではありませんでした。

指摘が不適切で「ノイズ」になることもあり、これが続くと開発者がAIの指摘を見なくなる「AI疲れ」を引き起こすリスクがあります。

また、AIは「なぜそのコードを生成したか」という思考プロセスを示さないため、判断の背景がブラックボックス化しやすいという課題も浮き彫りになりました。 これからのエンジニアには、AIを単なる作業ツールとして使うだけでなく、AIの出力を評価し、 最終的なビジネス判断や設計判断を下す「目利き」の能力 がより一層求められるようになります。

AIを「優秀な助手」と位置づけ、人間はより上流の創造的な役割を担うという役割分担が重要になると考えています。 今後の展望・期待を教えてください Bill One Engineering Unit は、今後もFindy Team+を活用した定量的な効果測定を継続し、レビュー品質のさらなる向上を目指します。

具体的には、インシデント後のポストモーテム分析の結果をAIレビューツールに反映させ、未然防止の知見を体系化する取り組みを進めています。

これにより、AIを単なる時間短縮ツールから、 組織の「品質保証装置」 へと進化させていく計画です。 Findy Team+には、こうした高度な分析の自動化や、AIレビューの反映率、チームの貢献度といった質的なフィードバックの可視化機能を強化してもらうことを期待しています。 最終的には、 データに基づいた意思決定を支援し、レビュー文化そのものを構造的に強化 していくことが目標です。 最後に AIを前提とした開発体制への変革は、AIツールをただ導入するだけでは終わることはありません。

導入したAIツールがどのように活用され、開発組織にどのような影響をもたらしたのかを数値で可視化し、定量的に測定することが重要です。

また、AIの導入効果を測定することは、社内での投資対効果を示す材料として必要不可欠な情報となります。 あなたの組織では、AI活用に対して定量的に測ることができていますか?



