米Anthropicは2月24日(現地時間)、新たなAIモデル「Claude 3.7 Sonnet」を発表した。このモデルは「ハイブリッド推論モデル(hybrid reasoning model)」として設計され、レスポンスの良い応答と深く思考するプロセスを使い分けられるのを特徴としている​。

従来のAIチャットボットは、簡単な質問には素早く回答できるものの、誤った推論や事実に基づかない回答を含むことがあった。一方、段階的な思考プロセスを採用する「思考型(Chain-of-Thought: CoT)モデル」は、複雑な問題解決に優れるが、推論に時間を要する。

Claude 3.7 Sonnetでは、標準モード(Claude 3.5 Sonnetのアップグレード版)と、拡張思考モード(Extended thinking mode)をユーザーが選択できる。日常的な対話では高速な通常のモードを、慎重な判断が求められる場面では拡張思考モードを利用できる。

Anthropicは、この設計について「人間が状況に応じて瞬時に判断するか、じっくり考えるかを選ぶように、リーズニングは完全に独立したモデルではなく、一体化された形で提供されるべきだ」と説明。即時応答と深い推論の両方をシンプルなユーザー体験として実現することを目指すとしている。

思考型を含むClaude 3.7 Sonnetは、コーディングや複雑なタスク処理に優れ、プログラムのバグ修正やコード解析、デバッグにおいて従来モデルを上回る精度を発揮する。Anthropicによれば、AIのコード生成能力を測る「SWE-Bench」ベンチマークで62.3%の正確性を記録し、OpenAIの「o3-mini」(49.3%)を大きく上回った。

一方、ユーザーとツールのインタラクションを伴う実世界のシナリオにAIがどの程度適応できるかを評価する「TAU-Bench」では、81.2%のスコアを達成し、OpenAIの「o1」(73.5%)よりも優れた結果を示している。

Claude 3.7 Sonnetは、Anthropicの全プラン(Free、Pro、Team、Enterprise)で利用可能である。ただし、拡張思考モードは、Proプラン以上でのみ提供され、無料プランでは利用できない​。API料金は、入力100トークンあたり3ドル、出力100万トークンあたり15ドルとなっており、Claude 3.5 Sonnetと同じ価格体系が維持されている。なお、APIユーザーは、モデルの思考時間を細かく制御して、スピードとコストのバランスを調整することが可能である。

Anthropicは、Claude 3.7 Sonnetとともに開発者向けの新ツール「Claude Code」の限定リサーチプレビューを発表した。コード検索・編集、テストの記述と実行、GitHubへのコミット、コマンドラインツールの操作が可能なエージェント型コーディングツールだ。