米Anthropicは9月29日(現地時間)、AIモデル「Claude Sonnet 4.5」を発表した。推論力が強化され、難易度の高い課題を倫理的に解決する性能が向上している。「Sonnet」は性能とスピードのバランスを重視したモデルシリーズだが、コーディングのベンチマークにおいて、Sonnet 4.5は高性能モデル「Claude Opus 4.1」を上回る結果を示している。コストパフォーマンスに優れたモデルであり、同社は「あらゆる用途においてClaude Sonnet 4.5へのアップグレードを推奨する」としている。
Sonnet 4.5の大きな特徴の一つは、実務タスクを長時間にわたり粘り強く遂行できる点である。Anthropicによると、実運用に近いコーディング評価「SWE-bench Verified」で「77.2%(並列化による最適条件下では82.0%)」を達成した。これは、同社のClaude Opus 4.1を含む現行の主要AIモデルを上回るスコアである。また、AIが実際にPCを操作して目標を達成できる能力を評価するベンチマーク「OSWorld」でも、Sonnet 4.5は61.4%のスコアでトップに立った。
実用面においても、Anthropicは複雑な多段階タスクにおいて、30時間以上にわたって集中力を維持し作業を遂行できることを確認したと述べている。さらに、金融、法律、医学、STEMなどの専門家によるテストでは、Sonnet 4.5がOpus 4.1など旧モデルに比べ、ドメイン固有の知識と推論能力の両面で「非常に優れている」と評価された。
安全性の面でも改善が施された。過度な追従や欺瞞、権限拡大志向、妄想的思考を助長する傾向が軽減されており、エージェント機能に対する深刻なリスクの一つであるプロンプトインジェクション攻撃への耐性も向上している。「ASL-3(AI Safety Level 3)」の保護下でリリースされ、同レベルには化学・生物・放射線・核(CBRN)を含む潜在的に危険な入出力を検知する分類器が含まれる。
Sonnet 4.5のAPI料金は従来のSonnet 4と同じく、100万トークンあたり入力3ドル/出力15ドル(20万トークンまで)に据え置かれている。入力・出力が20万トークンを超える場合は入力6ドル/出力22.50ドルになる。現時点で最高クラスのコーディング能力を、Opus 4.1(入力15ドル/出力75ドル)に比べて5分の1の料金(入力または出力が20万トークン以下の場合)で利用可能である点は、企業ユーザーにとって大きな利点となる。
関連プロダクトのアップデートも実施された。開発者向けの「Claude Code」には、ユーザーからの要望が最も多かった機能の一つであるチェックポイント機能が追加された。これにより、進行状況を保存し、任意の状態にロールバックできるようになった。また、ターミナルインターフェイスが刷新され、ネイティブのVS Code拡張機能も提供されている。APIには、長時間動作するエージェントの運用を見据えたコンテキスト編集機能とメモリツールが追加された。アプリ版Claudeでは、コード実行やファイル作成(スプレッドシート、スライド、ドキュメントなど)機能が会話インターフェイスに統合されており、利便性が高まっている。


