今回は、2025年10月6日~10月21日に発表されたAI関連の注目すべきトピックを紹介する。Synthesiaは動画生成AIの最新版をリリースした。OpenAIは「Apps in ChatGPT」でChatGPTを強化したほか、AI搭載ブラウザ「ChatGPT Atlas」をリリース。GoogleはWebサイトの操作に特化したAIモデルを公開。Anthropicは「Haiku 4.5」や「Claude Skills」をリリースしたほか、コーディングエージェント「Claude Code」のWebブラウザ版の提供を開始した。→連載「AIトレンド最前線」のこれまでの回はこちらを参照
それぞれ詳しく見ていこう。
高いインタラクティブ性を備えた動画生成AI「Synthesia 3.0」リリース
10月6日、Synthesiaは動画生成AIの最新版となる「Synthesia 3.0」をリリースした。この新バージョンの注目点としては、表情や唇の動き、手や体のジェスチャーがより自然になったアバター機能や、話者の声の特徴や訛りを数秒で再現できる高精度なボイスクローン機能が挙げられる。
また、動画内にクリック可能な要素や分岐、クイズを埋め込めるようになったのも注目すべきポイントだ。これによって、視聴者が能動的に参加できるインタラクティブ動画を作成することが可能で、教育機関や企業研修、営業支援などの分野での活用が期待できる。
さらに、今後追加予定の機能として、社内ナレッジベースと連携して台本作成や映像構成を支援するCopilot機能や、動画内のアバターとリアルタイムで会話・質疑応答ができるビデオエージェント機能なども発表されている。
OpenAI、チャットから外部アプリを操作できる新機能「Apps in ChatGPT」発表
10月6日、OpenAIはChatGPTでの会話の中にサードパーティのアプリやサービスを組み込める「Apps in ChatGPT」を発表した。この機能を利用すれば、ユーザーがチャット中にアプリ名やサービス名を指定して指示するだけで、該当するアプリやサービスを呼び出して、インタラクティブな作業を行える。
さらに同社は、このApps in ChatGPTを自前のアプリやサービスと連携させるための開発ツールキット「Apps SDK」もプレビュー版として公開した。Apps SDKはMCP(Model Context Protocol)を基盤として、アプリのチャットロジックとUIを定義・実装できるよう拡張されている。
Apps in ChatGPTは、EU域外のChatGPTログインユーザーが利用できる。初期段階では、Booking.com、Canva、Coursera、Figma、Expedia、Spotify、Zillowの各サービスと連携するアプリが用意されており、年末までにさらに多くのサービスに対応する予定だという。
Google、Webサイトの操作に特化したAIモデル「Gemini 2.5 Computer Use model」をプレビュー公開
10月7日、GoogleはWebサイトのUIと対話するために専用にチューニングされたAIモデル「Gemini 2.5 Computer Use model」をプレビュー版として公開した。このモデルはGemini 2.5 Proをベースに構築されており、その強力な視覚理解能力と推論機能を活用して、ユーザーがアプリケーションに対して本来行うべき操作を代替することができる。
具体的には、Webページ上でのクリックやスクロール、フォームへの入力や送信などのインタラクティブなアクションが可能。コア機能は、Gemini APIに新たに追加された「computer_use」ツールを通じて利用できる。モデルは、クライアントからユーザーリクエスト、環境のスクリーンショット、および最近のアクション履歴を受け取り、それに対してクリックや入力といったUIアクションを表す関数呼び出しをレスポンスとして返す。この機能を利用すれば、外部のWebサイトを操作するAIエージェントを容易に作成できるようになる。
Google、エンタープライズ向けAIサービス「Gemini Enterprise」発表
10月10日、GoogleはGeminiをベースにエンタープライズ向けの包括的なAIサービスを提供する「Gemini Enterprise」を発表した(関連記事:Google Cloud、企業向けAIエージェントプラットフォーム「Gemini Enterprise」 | TECH+(テックプラス))。Gemini Enterpriseでは、Google Workspaceのサービスだけでなく、さまざまなサードパーティー製のツールやサービスとも連携して、日常の業務を包括的に取り扱える。
具体的には、Google Workspace、Microsoft 365、Salesforce、SAP、ServiceNow、Jiraといった主要な業務アプリやデータソースがサポートされており、これらのアプリから文書やメール、チャットなどを取り込んで、文文の作成をはじめとする作業を行うことができる。Gemini Enterpriseについて、Googleでは、異種環境を横断するオープンなAI基盤としてのいちづけを強調している。
Anthropic、軽量モデル「Claude Haiku 4.5」リリース
10月16日、Anthropicは最新の軽量LLM「Claude Haiku 4.5」をリリースした。Haiku 4.5は、先月末に同社がリリースしたClaude Sonnet 4.5と比較すると性能面では劣るものの、コスト効率が高く、安価で高速に動作する点が大きな特長。性能が劣るとはいっても、特定のタスクでは世代モデルのSonnet 4の性能を上回っている。コスト効率のSonnet 4との比較では、約3分の1のコストで2倍以上の速度で動作するとのことだ。
さらにAnthropicでは、Haiku 4.5の登場が、高いコスト効率で最先端のパフォーマンスを求めるユーザーに対して新しい選択肢を提供するとも説明している。Sonnet 4.5は複雑な問題を複数ステップに分解して実行できる。このときサブタスクの実行にHaiku 4.5を使うことでコスト効率を高められるという。
Haiku 4.5はClaudeのすべてのユーザーが利用でき、入力トークン100万個あたり1ドル、出力トークン100万個あたり5ドルとなっている。Claude API経由で利用する場合の価格は、入力トークン100万個あたり1ドル、出力トークン100万個あたり5ドルと、Sonnet 4.5の3分の1に設定されている。
Anthropic、AIエージェントに専門スキルを追加する「Claude Skills」リリース
10月17日、AnthropicはAIサービス「Claude」向けに新機能「Claude Skills」を発表した。これは、Claudeが特定のタスクをより高精度・高効率に実行できるようにするためのスキル・パッケージ機能である。
ユーザーは、特定のタスクを実行するための専用の指示やスクリプト、リソースなどを「スキル」としてClaudeに提供する。Claudeは、タスク実行の際に利用可能なスキルをスキャンし、一致するスキルが見つかった場合に必要な情報を読み込んでタスクに利用する。これによって、専門性の高いタスクについても、従来よりもより高性能・高効率で取り組めるという。
スキルの選択は自動的に行われ、必要な最小限の情報とファイルのみが読み込まれる。これによって、Claudeは専門知識にアクセスしながらも、高速にタスクを進められる。Claude Skillsは、Claude CodeをはじめとするすべてのClaude製品において、Pro、Max、Team、Enterpriseの各プランで利用できる。
Anthropic、Claude Codeをブラウザで利用できる「Claude Code on the web」をプレビュー公開
10月21日、AnthropicはWebブラウザから直接コーディングタスクを実行できる「Claude Code on the web」をリサーチプレビューとして公開した(関連記事:Anthropic、「Claude Code」Web版を発表、安全なサンドボックス環境で同時実行に対応 | TECH+(テックプラス))。これはその名の通り、同社が提供するAIコーディングエージェント「Claude Code」のWeb版である。
Claude Codeでは、作りたいアプリケーションの説明をターミナルから自然言語で指示することで、人間に代わってAIが自律的に開発を行ってくれる。「Claude Code on the web」は、これをターミナルを開かずにWebブラウザ上から利用できるようにする。
使い方は簡単で、「https://claude.ai/code」にアクセスしてGitHubリポジトリに接続し、作りたいアプリケーションに関する指示を入力すれば、Claudeが実装を開始する。それぞれのセッションは独立した環境で実行され、進捗状況をリアルタイムで確認し、必要に応じて調整を加えられる。
現時点では、「Claude Code on the web」はClaudeのProおよびMaxユーザーが利用できる。
OpenAIのAI搭載ブラウザ「ChatGPT Atlas」が登場
10月21日、OpenAIがAI搭載型Webブラウザ「ChatGPT Atlas」をリリースした。AIチャット「ChatGPT」にシームレスにアクセスできるインタフェースが組み込まれており、サイドバーから記事の要約や要件抽出、文章の書き換えなどを手軽に行える。ユーザーの行動を記憶して文脈を理解する「ブラウザメモリー」を備えており、ユーザーが訪れたサイトのコンテキストを読み取って自動的にパーソナライズが行われていく点が大きな特徴である。
ChatGPTがユーザーに代わってWebサイトと対話してアクションを実行できる「エージェントモード」もプレビュー版として備えている。これを利用すれば、旅行の下調べや商品比較など、必要に応じたタスクをAtlas上で自律的に進めることが可能となる。プライバシー面では、ChatGPTが参照できるサイトの決定や、閲覧履歴の消去、ブラウザメモリの管理などをユーザーが自由に制御できる点が強調されている。
現在、ChatGPT AtlasはmacOS向けに提供が開始されており、Windows版、iOS版、Android版も近日中に公開される予定。エージェントモードは、Plus、Pro、Businessプラン向けにプレビュー機能として提供されている。




