Anthropic、最上位モデル「Claude Opus 4.5」発表、SWE-benchで初の80％台到達

米Anthropicは11月24日（現地時間）、Claude 4.5ファミリーの高性能モデル「Claude Opus 4.5」を発表した。難易度の高い推論や複雑なタスク処理において前世代から大幅な性能向上を果たしており、同社は新モデルを「コーディング、エージェント機能、コンピュータ操作において世界最高のモデル」と位置付けている。

Claudeには高性能モデル「Opus」、知能と速度のバランスがとれた「Sonnet」、軽量で高速な「Haiku」の3つのバリエーションがある。同社はすでに9月に「Claude Sonnet 4.5」、10月に「Claude Haiku 4.5」をリリースしており、Opus 4.5の登場によってClaude 4.5ファミリーが出揃った。

Opus 4.5は、主要なAI向けベンチマークでSonnet 4.5を大きく上回るスコアを示している。Claudeは開発支援やコーディングエージェント能力に優れており、Googleが11月18日にリリースした最新AIモデル「Gemini 3 Pro」でも、コーディングエージェント能力を測る「SWE-Bench Verified」ではSonnet 4.5を上回れなかった。Opus 4.5は80.9％を記録し、Sonnet 4.5（77.2%）を上回り、初の80％台に到達した。

これにより、エージェントとしての自律的な問題解決能力が向上している。例えば、変更を受け付けないエコノミークラスの航空券に関する顧客対応シナリオにおいて、従来のモデルが「変更不可」で処理を終える場面でも、Opus 4.5は「座席クラスを先にアップグレードし、その後フライト日程を変更する」という規定内の代替策を提示し、柔軟な推論能力を示した。

モデルの推論効率も向上し、問題解決に必要なトークン数が大幅に削減された。開発者は推論の深さを調整する“effort”パラメータを利用し、用途に応じて精度と処理速度のバランスを選択できる。「High」設定でOpus 4.5は、Sonnet 4.5より48％少ないトークン数で4.3%高い性能を発揮する。「Medium」設定では、Sonnet 4.5と同等の性能を維持しながらトークン消費量を76%削減できる。

安全性についても強化が図られた。特にプロンプトインジェクション攻撃への耐性が向上し、Anthropicの内部評価においては、AIモデルの不適切な振る舞いを幅広く測定する「懸念される行動」指標で他のフロンティアモデルより高い堅牢性が示された。この指標には、不正な依頼にAIが協力してしまう場合と、AIが自律的に望ましくない行動を取る場合の双方が含まれる。

Claude Opus 4.5は24日より、Web版ClaudeおよびClaudeアプリ、Claude Code、Claude APIへの展開が開始された。ClaudeおよびClaude CodeにおけるOpus固有の利用上限は撤廃され、MaxおよびTeam Premiumの使用制限も緩和された。Opus 4.5の使用制限は存在するものの、「日常業務で問題なく利用できるよう、必要に応じて調整する」としている。

また、Claudeがブラウザの複数タブを横断して操作できる「Claude for Chrome」がMaxプラン向けに提供開始されたほか、「Claude for Excel」のベータ提供範囲もMax、Team、Enterpriseへ拡大された。Claudeアプリではコンテキスト圧縮技術が強化され、長時間の会話でも途切れることなくチャットを継続できるようになった。