米Anthropicは5月22日(現地時間)、新世代のフロンティアモデル「Claude 4」ファミリーを発表し、「Claude Opus 4」および「Claude Sonnet 4」の提供を開始した。これらは特にプログラミング能力と高度な推論力において大きな性能向上を遂げており、同社はOpus 4を「世界最高のコーディングモデル」と位置付けている。
Claude OpusはClaudeシリーズにおける高性能モデルであり、Opus 4は複雑で長時間を要するタスクや、AIが自律的に判断・実行するエージェントワークフローにおいて、持続的な高性能を発揮するよう設計されている。数千ステップに及ぶ処理を数時間継続して実行できる能力は、AIエージェントが達成可能な作業領域を大きく広げるものである。
ベンチマークでは、実際のソフトウェアエンジニアリングタスクを評価するSWE-benchで72.5%、エージェント的なコーディングタスクの性能を測るTerminal-benchで43.2%という高スコアを記録した。
性能と効率のバランスに優れたClaude Sonnet 4は、優れたコーディング能力と推論能力を備えつつ、ユーザーの指示に対してより正確に応答するよう改良された。SWE-benchでは72.7%という高スコアを示し、多くの領域でOpus 4に及ばないものの、ステアラビリティ(指示追従性)の強化により、機能と実用性の最適な組み合わせを実現している。
両モデルは、「即時応答」と「拡張思考(extended thinking)」の2つのモードを備えたハイブリッドモデルである。さらに、以下のような新機能および改良が加えられている。
- ツールを使用した拡張思考 (ベータ版):拡張思考中にウェブ検索のようなツールを使用することができる。推論とツールの使用を交互に行うことで、応答の質を向上させることが可能。
- メモリ機能の向上:Opus 4では、開発者がローカルファイルへのアクセスを許可することで、重要な情報を「メモリファイル」として保存・参照する能力が大幅に向上。これにより、長期タスクにおける文脈維持や継続性が強化される。
- 行動の最適化:タスク達成時に不適切なショートカットや抜け穴を使おうとする挙動が、Sonnet 3.7と比べ約65%減少。
- 思考プロセスの要約機能:複雑な思考プロセスを経た場合、小型モデルを使用して簡潔な要約を生成してユーザーに提示する。
Opus 4とSonnet 4および拡張思考は、ClaudeのPro、Max、Team、Enterprise Claudeプランで利用可能であり、Sonnet 4は無料プランにも提供されている。また、両モデルは、Anthropic API、Amazon Bedrock、Google CloudのVertex AI を通じて提供され、料金は従来のOpusおよびSonnetと同様である。Opus 4は100万トークンあたり15ドル/75ドル(インプット/アウトプット)、Sonnet 4は3ドル/15ドル(同)。