OpenAIが動画生成AI「Sora」の提供終了を発表した。公開からわずか半年という短期間での撤退は、生成AIの急速な進化と同時に、コストや権利といった現実的な課題の大きさを浮き彫りにした出来事といえる。

一方で、OpenAIは軽量モデル「GPT-5.4 mini」や「nano」を投入し、エージェント型AIの実用化に向けた動きを加速。Googleも音楽生成AI「Lyria 3 Pro」や音声対話モデル「Gemini 3.1 Flash Live」を発表し、リアルタイム性や長時間生成といった領域で競争を強めている。さらにAnthropicは、AIの社会的影響を研究する新組織の設立や、PCを直接操作する機能の公開など、技術と社会の両面から存在感を高めている。

本稿では、2026年3月9日から3月27日にかけて発表された主要なAI関連ニュースを整理し、その背景と意味を読み解く。→連載「AIトレンド最前線」のこれまでの回はこちらを参照

  • OpenAIの動画AI「Sora」終了 出典:OpenAI

    OpenAIの動画AI「Sora」終了 出典:OpenAI

AnthropicがAIの社会影響研究に本格参入、政策・倫理も視野に

3月11日、AnthropicはAIの社会的影響や安全性を長期的に研究する「The Anthropic Institute」の設立を発表した。人類学研究から得られた知見を活用して、急速に進化するAI技術が人類や制度にどのような影響を与えるのかを多角的に分析することが同研究所の目的とされている。

特に注目されるのは、技術開発だけでなく、政策・倫理・経済といった幅広い領域を横断して研究を進める点である。AIが社会基盤に組み込まれる中で、そのリスクと可能性を体系的に捉える方針が示されている。

Anthropicでは、The Anthropic Instituteの設立を通じて、単なる企業研究を超えた公共的な知の拠点の構築を目指すという。同社は、The Anthropic Instituteの設立と並行して公共政策部門の組織の拡大も行っており、世界におけるAIガバナンスの策定と形成を全面的に支援する姿勢を示している。

  • Introducing The Anthropic Institute

    Introducing The Anthropic Institute

OpenAI、軽量AIを強化 「mini」「nano」でエージェント活用を加速

3月17日、OpenAIは最新AIモデルシリーズの小型版となる「GPT-5.4 mini」および「GPT-5.4 nano」をリリースした。これらはGPT-5.4の高度な推論能力を継承しつつ、高いスループットと効率性を重視して設計されている軽量小型モデルである。

miniは、前世代のGPT-5 miniと比較して2倍以上の高速化を実現しており、400kのコンテキストウィンドウをサポートする。とくにコーディングやマルチモーダル理解で飛躍的な進化を遂げており、ベンチマークでは、SWE-Bench ProでGPT-5.4本体との差がわずか3ポイント以内、OSWorld-Verifiedでも72.1%と旗艦モデルの75.0%に迫る性能を示している。

nanoは、速度とコストが最優先される用途向けに設計された、GPT-5.4シリーズの最小かつ最も低コストなバージョンである。データ抽出や分類、サブエージェントとしての補助タスクに最適化されており、低遅延なレスポンスが不可欠なコーディング支援や、複雑な並列処理を行うエージェントシステムでの活用が想定されている。

両モデルが特に有効とされるのがエージェント型のシステム構成だ。例えば、GPT-5.4のような大型モデルが計画・調整・最終判断を担い、GPT-5.4 miniのサブエージェントがコードベース検索やファイルレビューなどの個別タスクを並列処理するという分業パターンが想定されている。現在、miniはAPIやChatGPT、Codexを通じて利用可能となっている。一方でnanoはAPI限定での提供となる。

  • GPT-5.4 / 5.4 mini / 5.4 nano / GPT-5 miniのベンチマーク比較 出典:OpenAI

    GPT-5.4 / 5.4 mini / 5.4 nano / GPT-5 miniのベンチマーク比較 出典:OpenAI

ClaudeがPCを直接操作へ、“人の代わりに働くAI”が現実に

3月23日、Anthropicは同社のAIサービス「Claude」においてユーザーのコンピュータを直接操作できる新機能「Computer use」を公開した。これはClaudeが画面上の情報を認識し、人間と同じようにマウス操作やキーボード入力、ブラウザー利用などを自動で行うもの。SlackやGoogle Calendarなど普段の作業で使うアプリケーションに対して、特別なコネクターを設定することなく、Claudeが直接キーボードやマウスによって制御してタスクを遂行できる。

Computer useの公開に合わせて、AnthropicはClaude CoworkおよびClaude Codeの新機能である「Dispatch」との連携強化も発表した。Dispatchは、スマートフォンからClaudeにタスクを割り当て、デスクトップで完成した成果物を受け取ることができる連携機能である。Computer useと連携することで、ユーザーは外出先からスマートフォンで指示を出し、AIがそれを受けてオフィスや自宅のPCでタスクを進めるというワークフローが実現できる。

Anthropicによれば、Computer useではプロンプトインジェクションなどの不正指示を検出する安全対策を講じるなど、安全面には万全の注意を払っているという。PC操作の実行にはユーザーの明示的な許可が必要であり、ユーザーはいつでもClaudeの動作を停止させることができる。Computer useは、現在はmacOS版のデスクトップアプリにおいてProおよびMaxユーザー向けの研究プレビューとして提供されている。

  • スマートフォンで指示を出し、PC上のAIがタスクを実行する 出典:Anthropic

    スマートフォンで指示を出し、PC上のAIがタスクを実行する 出典:Anthropic

動画生成AI「Sora」終了、コストと法務リスクが壁に

3月24日、OpenAIは動画生成AI「Sora」の一般向けアプリとAPIの提供を終了すると発表した。2025年9月の公開以来、精度の高い動画生成で注目を集めたが、独立したサービスとしてはわずか半年余りで幕を閉じることとなる。

電撃的な終了の背景には、1日1500万ドルとも推測される莫大な計算コストと、著作権侵害の懸念に伴う法務リスクがある。OpenAIは声明の中で、計算需要の増大に対応しつつ事業の焦点を絞るため、Soraの研究チームをロボティクスの発展を目的としたワールドシミュレーション研究へ移行させると述べている。ディズニーとの10億ドル規模の提携も解消され、IPOを見据えた収益構造の改善が優先された形だ。

OpenAIは2025年12月にウォルト・ディズニーとの10億ドル規模のライセンスおよび投資契約の締結を発表していたが、この契約もSoraの終了に伴って白紙になったという。アプリ終了の具体的なスケジュールや作成済み動画の保存方法については、近日中にあらためて案内するとのことだ。

Google、3分の楽曲生成を実現 音楽AIが実用フェーズへ

3月25日、Googleは音楽生成AIモデルの最新版「Lyria 3 Pro」を発表した。これは2月に公開された「Lyria 3」の上位モデルにあたり、テキストの指示や画像を元にして、高品質なボーカル付き楽曲を生成することができる。

Lyria 3 Proの最大の特徴は、楽曲の生成時間が従来の30秒から最長3分へと大幅に拡大した点だ。さらに、イントロやサビ(コーラス)、ブリッジといった楽曲の構造を個別に指定できる機能も追加された。これにより、ユーザーの意図に沿ったより本格的な楽曲構成が可能となっている。

生成されるすべての楽曲にはAI生成コンテンツを識別するための電子透かし「SynthID」が自動的に埋め込まれる。また、モデルの学習にはGoogleが権利を持つ素材のみを使用しており、プロンプトでアーティスト名を指定しても特定クリエイターの表現を模倣しない設計になっているという。

Lyria 3 ProはVertex AI、Google AI Studio、Gemini API、Google Vids、ProducerAIなど、複数のGoogleプロダクト向けに幅広く展開されている。Geminiアプリでは、Google AI Proなどの有料プランの加入者が長尺楽曲の生成機能を利用でき、日本語にも対応している。

Google、リアルタイム音声AIを強化 対話型AIが次の主戦場に

3月26日、Googleはリアルタイム音声対話に特化した最新のAIモデル「Gemini 3.1 Flash Live」をリリースした。同モデルはGoogleが提供するこれまでで最高品質の音声モデルとして位置づけられており、次世代の音声ファーストAIに必要な応答速度と自然なリズムを実現したという。

性能面では、周囲の雑音を除去しつつ、話者のピッチやペースといった繊細なニュアンスを理解する能力が飛躍的に向上した。日本語を含む90以上の言語に対応し、文脈を維持できる長さも従来比で2倍に向上している。これにより、長時間のブレインストーミングや複雑な相談でも、思考を中断することなくスムーズに対話を継続できるようになった。

ベンチマークでは、多段階の関数呼び出しを評価するComplexFuncBench Audioで90.8%のスコアを記録し、従来モデルを上回る結果を記録。実世界の音声に典型的な割り込みや言いよどみを含む複雑な指示追跡を測定するAudio MultiChallengeでも、thinkingモードで36.1%と競合をリードしている。

新モデルは、「Gemini Live」やカメラを使う「検索Live」を通じて利用できる。開発者向けには「Gemini Live API」も公開されており、これを利用することで高度な音声AIエージェントの構築が可能となっている。

  • ComplexFuncBench Audioによるベンチマーク結果 出典:Google

    ComplexFuncBench Audioによるベンチマーク結果 出典:Google