米Anthropicは2月17日(現地時間)、Claude Sonnet系の新モデル「Claude Sonnet 4.6」を発表した。
コーディング、長文推論、エージェントの計画立案、知識労働支援、デザイン支援、コンピューター操作などの能力を総合的に改善。従来の「Sonnet 4.5」と同じ価格(100万トークンあたり入力3ドル/ 出力15ドル)を維持しながら、性能面では同社の最上位モデルである「Opus」に迫る実力を備える。
開発者向けツール「Claude Code」を用いた初期テストでは、約70%のユーザーが前モデルよりもSonnet 4.6を好むと回答した。オーバーエンジニアリングや怠惰の傾向が大幅に少なくなり、指示への忠実度が高まったと評価されたという。 2025年11月時点でのフロンティアモデルであったOpus 4.5(現在の最上位モデルはOpus 4.6)に対しても、59%のユーザーが最新のSonnetを支持した。コスト面でSonnet 4.6は、Opusの約6割の価格水準である。
以下はAnthropicが公開したベンチマークスコアの比較。
ほぼすべてのテストでSonnet 4.5を大きく上回り、Opus 4.5/ 4.6に近い、一部では上回るスコアを示している。
特に注目されるのが、Anthropicが注力点として挙げる「computer use(コンピューター操作)」能力の向上である。2024年にベンチマーク「OSWorld」が公開され、同年10月時点でSonnet 3.5のコンピュータ操作能力は実験的な水準にとどまっていたが、16カ月で劇的な進化を遂げた。Sonnet 4.6では「OSWorld-Verified」で72.5%を達成した。こうしたコンピューター操作スキルの向上により、API連携のない社内システムや古い業務ツールでも、AIによる自動化の可能性が広がる。
セキュリティ面も強化された。特に、外部から悪意ある指示を埋め込む「プロンプト・インジェクション」への耐性が向上し、Opus 4.6と同等水準の防御性能を備えると説明している。
Claude Sonnet 4.6は現在、無料版を含むすべてのClaudeプラン、API、および主要なクラウドプラットフォームで利用可能となっている。ベータ版として最大100万トークンのコンテキストウィンドウをサポートする。
Claude 開発者プラットフォームでは、推論の強さを調整する「adaptive thinking」や「extended thinking」に加え、会話が長くなると古い文脈を自動要約して実質的な文脈利用効率を高める「context compaction」(ベータ)も利用できる。


