米Anthropicは11月21日(現地時間)、大規模言語モデル(LLM)のアップデート「Claude 2.1」を発表した。コンテキストウィンドウを従来の10万トークンから20万トークンに拡大。ハルシネーション率がClaude 2.0の半分に減少する。加えて、Claudeの相互運用性を拡大する「API Tool Use」の初期ベータ提供を開始した。Claude 2.1はAPIで利用できるほか、claude.aiのAIチャットボットに組み込まれているが、20万トークンのコンテキストウィンドウは有料のClaude Proに限定される。

コンテキストウィンドウは、プロンプトに対する応答を生成する際にAIモデルがアクセスできるトークンの範囲を指す。これが広いほど、より長期間にわたる会話の文脈や指示を維持でき、より多くのコンテンツやデータを扱うことで、要約、Q&A、トレンド予測、複数のドキュメントの比較対照など、さまざまなリクエストでより複雑な処理に対応できる。

OpenAIが11月6日に開発者カンファレンスで発表した「GPT-4 Turbo」は12万8000トークンだった。それを上回るClaude 2.1の20万トークンは、およそ15万ワード、500ページ以上の資料に相当する。技術文書、S-1のような財務諸表、または「イーリアス」や「オデュッセイア」のような長編文学作品もアップロードできる。

信頼性については、従来のモデルの弱点を探る複雑で事実に基づいた大規模な質問セットを用いてClaude 2.1をテストしたところ、同モデルは誤った主張(「ボリビアで5番目に人口が多い都市はモンテロです」)よりも、不確実性を認めて降参(「ボリビアで5番目に人口が多い都市がどこであるかわかりません」)する可能性が大幅に高くなった。特に、法的文書、財務報告書、技術仕様書など、高い正確性が要求される複雑で長い文書において、理解力と要約力で大きな改善が見られるという。

API Tool Useは、ユーザーの既存のプロセス、製品、APIとClaudeを統合できるようにする。例えば、車のアドバイスを求めてきた人に、どの車種を勧めるべきかわからない場合、応答に適したモデルやデータベースを呼び出したり、Web検索を実行して対応する。ユーザーのリクエストに対し、モデルはタスクを達成するためにどのツールが必要かを判断し、ユーザーに代わって以下のようなアクションを実行する。

  • 複雑な数値推論に計算機を使用
  • 自然言語リクエストを構造化されたAPI呼び出しに変換
  • データベースを検索したり、ウェブ検索APIを使用して質問に答える
  • プライベートAPIを介してソフトウェアで簡単な操作を行う
  • 商品データセットに接続し、推奨商品を提案したり、ユーザーの購入完了を支援