OpenAIは3月11日(現地時間)、AIエージェントの開発を支援する新たなAPI「Responses API」と開発者向けツール「Agents SDK」を発表した。

AIエージェントへの関心は近年高まっているが、その定義は依然として曖昧である。OpenAIはエージェントを「ユーザーに代わって独立してタスクを実行するシステム」と定義している。同社は過去1年間で、高度な推論、マルチモーダル対応、新たな安全対策などをモデルに追加し、複雑なマルチステップのタスクを処理するための基盤を整えてきた。しかし、実用レベルのエージェントを開発するには、プロンプトの細かな調整や、複数のタスクを連携させる制御ロジックの設計など、高度な開発作業が求められる。こうした課題を解決するため、OpenAIはResponses APIとAgents SDKを提供し、開発者がより容易にエージェントを構築・管理できる環境を整備する。Responses APIは同日よりすべての開発者が利用可能となった。

Responses APIは、従来の「Chat Completions API」と「Assistants API」の機能を統合した新しいAPIであり、Web検索、ファイル検索、コンピュータ操作といったツールを組み合わせたエージェントの開発を可能にする。

GPT-4oおよびGPT-4o miniを使用している場合、Web検索をツールとして利用可能であり、リアルタイムの情報取得を活用した応答を生成できる。また、大量の文書データを迅速に検索できるファイル検索機能も提供される。FAQの検索、法務文書の照会、技術ドキュメントの参照など、多様な業務への活用が想定される。さらに、「Computer-Using Agent(CUA)」という新機能が搭載された。これにより、エージェントがマウスやキーボードの操作を模倣してPC上のタスクを自動実行できる。データ入力や業務プロセスの自動化が可能になり、企業の業務効率向上に貢献すると期待される。

Agents SDKは、エージェントのワークフローを統合的に管理するためのツールである。エージェント間のタスクの引き継ぎを自動化し、複雑なワークフローの構築を容易にする。また、ユーザー入力やモデル出力の検証を自動化し、安全性を向上させるガードレール機能を備えるほか、エージェントの動作を可視化し、デバッグや最適化を支援する機能も提供される。

今回発表されたResponses APIとAgents SDKは、AIエージェント開発をより簡単にし、実用化を加速させるための「最初のビルディング・ブロック」と位置付けられている。しかし、現時点では課題も残る。たとえば、Web検索の精度向上や、エージェントの自律性の向上が今後の焦点となる。

  • AIエージェント向けベンチマークの測定結果

    実世界のタスクにおけるAIエージェントのパフォーマンスを測定するベンチマークOSWorldで、CUAのパフォーマンスは現在38.1%であり、OS上のタスクを自動化するためのモデルの信頼性はまだ十分に高くない。 このようなシナリオでは、人による監視が推奨される。

OpenAIは「エージェントは近い将来、労働力に不可欠な存在となり、産業全体の生産性を大幅に向上させる」との見解を示しており、今後はAPI間の統合をさらに深めるとともに、本番環境でのエージェントの導入、評価、最適化を支援する新ツールへの投資を続けていく方針だ。