米Anthropicは3月4日、大規模言語モデル(LLM)の新版「Claude 3」を発表した。LLM向けの主要なベンチマークの多くでOpenAIのGPT-4やGoogleのGemini 1.0 Ultraを上回る性能を示しており、コンテキストウインドウも100万トークン以上に向上した。また、視覚的な情報の処理にも対応するマルチモーダルモデルになった。

Claude 3には、複雑なタスクの処理に適した高性能モデル「Opus」、インテリジェンスとスピードのバランスがとれた「Sonnet」、コンパクトで高速な「Haiku」の3つのサイズが用意された。4日からclaude.aiおよびClaude APIを通じてOpusとSonnetが利用可能になり、Haikuの提供も間もなく開始する。コンテキストウィンドウはClaude 2.1と同じ20万トークンとなっているが、3つのモデル全てが100万トークンを超える入力を受け付けることが可能であり、初期段階では特定の使用ケースの顧客に対して、Opusで100万トークンを利用できるオプションを提供する。

Anthropicによると、Claude 3モデルは、分析と予測、ニュアンス豊かなコンテンツの作成、コード生成、スペイン語・日本語・フランス語など英語以外の言語での対話能力が向上している。OpusのMMLU(自然言語処理モデルの理解力と推論能力を総合的に評価)スコアは「86.8%」、GPQA(大学院レベルの専門的な知識とスキルを問うデータセット)は「50.4%」。GPT-4(86.4%、35.7%)やGemini 1.0 Ultra(83.7%、NA)を上回っている。写真、チャート、グラフ、テクニカルダイアグラムなど、多様なビジュアル形式を処理できるビジョン機能についても、MMMU(val)が「59.4%」と、マルチモーダルモデルとして開発されたGemini 1.0 Ultra(59.4%)と同等の性能を示している。

Claude 3はレスポンスの良い体験で、ライブチャット、オートコンプリート、データ抽出タスクを支援するように設計されている。軽量モデルのHaikuは、約1万トークン規模の研究論文をチャートやグラフと共に3秒以内に読み取ることができる高速かつ費用対効果の高い性能を備える。SonnetはClaude 2.1よりも2倍高速であり、OpusはClaude 2.1と同等の速度を維持しながら、インテリジェンスレベルを大幅に向上させた。

Anthropicは、人の役に立つこと、無害であること、正確であることを重視してLLMを開発している。これまでClaudeには安全性を優先して回答拒否を選択する傾向が見られたが、Claude 3は要求のニュアンスをより深く理解し、ガードレールの境界付近で無害なプロンプトを見極める精度が向上した。それにより、不必要な拒否が大幅に減少している。