米OpenAIは1月23日(現地時間)、「Operator」をリリースした。同エージェントは、Web上でタスクを実行するために独自のブラウザを使用してWebページを閲覧し、入力、クリック、スクロールなどの操作を行うことができる。

「Operator」の概要

現在、研究プレビュー(research preview)段階にあり、制限があるためユーザーのフィードバックにもとづいて進化していくという。独立してタスクを実行できるAIエージェントの1つであり、タスクを指示するとそれを実行するとのこと。

  • 「Operator」のイメージ

    「Operator」のイメージ

Operatorは、フォームの入力、食料品の注文、ミームの作成など、さまざまな繰り返しのブラウザタスクを処理することができ、日常的に使用するインターフェースやツールを利用できる能力は、AIの有用性を広げ、日常のタスクにかかる時間を節約し、ビジネスに新たなエンゲージメントの機会を提供するとしている。

同日から米国のProユーザー向けにoperator.chatgpt.comで利用が可能であり、研究プレビューでユーザーや広範なエコシステムから学び、改善を重ねていく。将来的には、Plus、Team、Enterpriseユーザーにも拡大し、これらの機能をChatGPTに統合する計画だ。

Operatorは、Computer-Using Agent(CUA)と呼ぶ新しいモデルによって動作し、GPT-4oのビジョン機能と強化学習による高度な推論を組み合わせ、画面上のボタン、メニュー、テキストフィールドなどのGUIと対話するようにトレーニングされている。

また、スクリーンショットを通じて「見る」ことができ、マウスやキーボードで可能なすべての操作を使用して「対話」することができる。これにより、カスタムAPI統合を必要とせずにWeb上でアクションを実行することを可能としている。

さらに、課題に直面したり、ミスをしたりした場合、Operatorは推論能力を活用して自己修正することができる。CUAは初期段階で制限があるものの、WebArenaやWebVoyagerという2つの主要なブラウザ使用ベンチマークでベンチマーク結果を設定している。

使用方法は、実行したいタスクを簡単に説明するだけで処理し、ユーザーはいつでもリモートブラウザの制御を引き継ぐことができ、Operatorはログインや支払い情報の入力、CAPTCHAの解決が必要なタスクについては、ユーザーに引き継ぎを積極的に依頼するように訓練されている。

加えて、すべてのサイトまたは特定のサイトに対して、カスタム指示を追加することで、Operatorでワークフローを個別化できる。例えば、Booking.comで航空会社の設定を行うなどだ。食料品の即日配達サービス「Instacart」で食料品の再注文など、繰り返し行うタスクに最適なプロンプトをホームページに保存し、迅速にアクセスできるようにするという。

ブラウザで複数のタブを使用するのと同様に、ユーザーは新しい会話を作成することで、ハンドメイド商品が簡単に購入・販売できる「Etsy」でパーソナライズされたエナメルマグの注文やアウトドアアクティビティーに特化した「Hipcamp」でのキャンプ場の予約など、複数のタスクを同時に実行することを可能としている。