GPT-4oを上回る? Anthropicが「Claude 3.5 Sonnet」をリリース

米Anthropicは6月20日（現地時間）、大規模言語モデル（LLM）の新版「Claude 3.5 Sonnet」を発表した。

Claudeには高性能モデル「Opus」、インテリジェンスとスピードのバランスがとれた「Sonnet」、コンパクトで高速な「Haiku」の3つのバリエーションがある。"3.5"ファミリーの最初のリリースであるClaude 3.5 Sonnetは、Claude 3 Opusの約2倍の速度で動作し、多くのベンチマークにおいて3 Opusを上回る性能を示している。特にコードの記述、翻訳、マルチステップワークフローの処理、チャートやグラフの解釈、画像からのテキスト抽出において顕著な改善が見られる。また、文脈の理解力が向上し、より自然な文章生成が可能になったという。

Anthropicが公開したClaude 3.5 Sonnetの主なベンチマーク結果は以下の通り。

OpenAIのGPT-4oと比較すると、GPQA（大学院レベルの専門的な知識とスキルを問うデータセット）とHumanEval（プログラミングタスクの正確性からコード生成能力を評価）がGPT-4oを上回っており、MMLU（自然言語処理モデルの理解力と推論能力を総合的に評価）は同等の性能を示している。より重視されるようになってきたMATHはGPT-4oに劣るものの、Claude 3 Opusから大きく向上しており、GoogleのGemini 1.5 Proを上回る結果となっている。Anthropicの内部エージェントコーディング評価で3.5 Sonnetは問題の64%を解決した。3 Opusの38％から大きく向上した。

Claude 3.5 Sonnetは20日から、Claude.aiとClaude iOSアプリに展開されており、Claude ProおよびTeamプランのユーザーに優先提供されている。Anthropic API、Amazon Bedrock、Google CloudのVertex AIでの提供も開始された。料金はClaude 3 Sonnetから変更されていない。入力トークン100万あたり3ドル、出力トークン100万あたり15ドル（20万トークンのコンテキストウィンドウを備える）となっている。

Claude 3 Sonnetのスピードとコストで3 Opusを上回るインテリジェンスを持つ3.5 Sonnetにより、顧客はより効率的かつコスト効果の高い方法で高度な言語モデルを活用することができるようになる。

Anthropicはまた、Claudeがユーザーと対話する方法を拡張する「Artifacts」を発表、20日からClaudeの機能プレビューで提供を開始した。これはClaudeを現在の会話型AIから共同作業環境に進展させる機能である。

ユーザーがClaudeにコードスニペット、テキストドキュメント、Webデザインなどのコンテンツの生成を依頼すると、会話とともにそれらのArtifactsが専用ウィンドウに表示される。このダイナミックなワークスペースを通じて、ユーザーはリアルタイムでClaudeが生成したコンテンツを確認、編集、構築することができ、プロジェクトやワークフローにシームレスに統合することが可能となる。

Anthropicは事業戦略としてビジネスに焦点を当てる考えを示していたが、Artifactsの導入はその大きなビジョンの始まりとなる。「Claudeがオンデマンドのチームメイトとして機能することで、チーム、そして最終的には組織全体が、知識、ドキュメント、進行中の作業を1つの共有スペースに安全に集約できるようになるだろう」と述べている。