米OpenAIは4月16日(現地時間)、AIコーディングエージェント「Codex」のメジャーアップデートを発表した。今回の更新では、デスクトップ上のアプリの操作、アプリ内ブラウザ、画像生成、メモリ機能(プレビュー)、90以上の追加プラグインなど、多岐にわたる機能強化が行われた。Codexをコーディング補助ツールから、より広範な開発業務を扱うAIエージェントへと拡張する内容となっている。
最も注目されるのは、「Computer use(コンピューター操作)」機能の実装である。デスクトップ上のアプリをクリック・入力で操作し、タスクを実行する。各エージェントが独自のカーソルを持って動作するため、ユーザーのマウス・キーボード操作と競合せず、ユーザーの作業を妨げることなく動作する。複数のエージェントを同時に動作させることも可能である。OpenAIは、APIを公開していないアプリでの作業、フロントエンドの調整、アプリのテストなどに有用だとしている。
Computer useはまずmacOSで提供を開始した。EUおよび英国の利用者には今後展開する予定である。
アプリ内ブラウザの導入により、CodexでWebページを表示し、ページ上に直接コメントを付けてエージェントへ修正指示を出せるようになった。フロントエンド開発やゲーム制作における反復作業の効率化を想定した機能で、将来的にはlocalhost以外のWebアプリにも対応を広げる計画だという。
画像生成には「gpt-image-1.5」が採用された。製品コンセプト、モックアップ、UIデザイン、簡単なゲームアセットなどの作成に活用できる。スクリーンショットやコードと組み合わせることで、同一の作業フロー内で視覚表現の試行錯誤を進めやすくした。
開発ワークフロー面では、GitHubのレビューコメントへの対応、複数ターミナルタブの実行、SSH経由でのリモート開発環境への接続(アルファ版)などが追加された。PDF、スプレッドシート、スライド、文書ファイルをサイドバーでリッチにプレビュー表示できるほか、エージェントの計画や参照元、生成物を追いやすくするサマリーペインも新設された。これにより、実装から確認、レビューまでを単一の作業空間で進めやすくなった。
メモリ機能のプレビュー版も提供が始まった。ユーザーの作業傾向や修正内容、収集に時間がかかった情報などを記憶し、今後の作業に生かす仕組みである。自動化機能も強化され、過去の会話スレッドを引き継いで作業を再開したり、数日から数週間にわたる長期タスクを自らスケジュールして継続できるようになった。
今回追加される90以上のプラグインは、スキル、アプリ連携、MCP(Model Context Protocol)サーバー接続を組み合わせ、各種ツールから文脈を取得したり、操作を実行したりできるようにするものだ。OpenAIは、Atlassian RovoによるJIRA管理支援、CircleCI、CodeRabbit、GitLab Issues、Microsoft Suite、Neon by Databricks、Remotion、Render、Superpowersなどを例として挙げている。


