米Anthropicは3月9日(現地時間)、AI開発支援ツール「Claude Code」の新機能として、プルリクエスト(PR)を自動検証する「Code Review」を発表した。複数のAIエージェントを並列に動かし、バグ候補の発見や誤検出の絞り込み、重要度の順位付けまでを行う。現時点では、TeamおよびEnterprise向けにリサーチプレビューとして提供される。

Anthropicによれば、同社はほぼすべてのPRでCode Reviewを利用している。導入の背景には、AI活用によってコード出力量が急増し、人間によるコードレビューが開発のボトルネックになってきた状況がある。同社では過去1年で、エンジニア1人あたりのコード出力量が200%増加した。これに伴い、実質的なレビューコメントが付くPRの割合が16%にとどまっていたが、Code Review導入後は54%まで上昇したとしている。なお、PRの承認自体は人間が担い、Code Reviewは判断を補助する役割にとどまる。

Code Reviewは「速度より深さ」を重視して設計されている。PRが作成されると、複数のAIエージェントが並行してバグを探索し、それぞれの検出結果を照合する。その後、誤検出を除外し、重要度順に整理したうえで、PR上に単一の概要コメントと個別のインラインコメントとして提示する。

処理内容はPRの規模や複雑さに応じて変化する。大規模な変更にはより多くのエージェントを割り当て、軽微な修正には簡易な検査を実施する。Anthropicのテストでは、平均レビュー時間は約20分だった。大規模PR(1000行以上変更)では84%で何らかの発見があり、平均7.5件の問題が検出された。一方、小規模PR(50行未満)では31%、平均0.5件だった。検出結果のうち、エンジニアが誤りと判断した比率は1%未満としている。

Anthropicは発表の中で、本番サービスの1行変更から認証障害につながる重大な不具合を発見したケースを紹介している。一見すると通常の差分に見え、従来ならすぐに承認される可能性が高い差分だったという。また、TrueNASのオープンソースミドルウェアにおけるZFS暗号化のリファクタリングでは、PRで直接変更していない隣接コードに潜んでいた既存バグも検出した。これも、差分を中心に追う人間のレビューでは見落とされていた可能性が高い。

料金はトークン使用料に基づく従量課金で、1回あたりの平均コストは15〜25ドル。PRのサイズと複雑さに応じて変動する。Anthropicはより軽量な「Claude Code GitHub Action」も引き続き提供し、Code Reviewは詳細な検査を行う上位機能と位置付けられる。管理者向けには、月次利用上限、リポジトリ単位の有効化、レビュー数や受け入れ率、総コストを確認できる分析ダッシュボードなどを用意する。