今回は、2026年1月23日~2月5日に発表されたAI関連の注目すべきトピックを紹介する。AnthropicとOpenAIは、同日にフラッグシップのAIモデルである「Claude Opus 4.6」と「GPT-5.3-Codex」をリリース。Alibabaはオープンモデルの「Qwen3-Coder-Next」を、xAIは画像・動画生成AIの「Grok Imagine 1.0」を公開。AIによる作業支援環境としては、OpenAIが研究者向けの「Prism」を、Mistral AIが端末用エージェントの「Mistral Vibe 2.0」をリリースした。また、AI生成コードを追跡するためのオープン仕様「Agent Trace」の策定も始まった。
それぞれ詳しく見ていこう。→連載「AIトレンド最前線」のこれまでの回はこちらを参照
OpenAI、研究業務をサポートするワークスペース「Prism」公開
1月27日、OpenAIは研究者向けのAI搭載型オンラインワークスペース「Prism」を公開した。Prismは最新のAIモデル「GPT-5.2」を直接統合し、科学研究者が論文執筆や校正、引用管理、共同編集などを一つの環境で完結できるよう設計されている。
Prismの特徴的な機能の一つとして、LaTeXコンパイラーを搭載した文書執筆環境がある。執筆中の文章、数式、図表、文献リストをAIが理解し、リアルタイムで校正や推敲の提案を行えるほか、構成の整理、フォーマット調整、自動エラーチェックなど、多様な支援機能を備えている。複数の共同研究者が同時に作業することができ、誰でも無料で利用可能となっている。
Prismを使うことで、エディターやLaTeXのビルド環境、PDFビューアー、文献管理ツールなどを使い分ける必要がなくなり、研究者は執筆の流れを中断せず作業に集中できるという強みがある。OpenAIはPrismを通じて、科学研究の生産性向上とAIを活用した学術コラボレーションの加速を目指すという。
Mistral AI、端末用プログラミングアシスタント「Mistral Vibe 2.0」リリース
1月27日、フランスのAI大手Mistral AIはターミナル向けのAIコーディングエージェント「Mistral Vibe 2.0」を正式リリースした。これは自然言語でコード操作やプロジェクト管理を可能にするツールで、同社の最新AIモデル「Devstral 2」を搭載し、CLI(コマンドラインインタフェース)上でのスムーズな開発を支援する。
従来バージョンからの主要な強化点としては、タスクごとのカスタムサブエージェント作成機能、曖昧な指示に対して候補を提示するマルチチョイス・クラリフィケーション、スラッシュコマンドによるスキル起動などが挙げられる。
これらの機能によって、開発者は自分のワークフローに合わせた柔軟な自動化が可能となり、複数ファイルの一括操作や精密なレビュー作業が対話的に進められるようになっている。
CursorらがAI生成コードを追跡するためのオープン仕様「Agent Trace」発表
1月29日、Cursor、Cognition、Cloudflareら複数の企業が共同でAI生成コードを追跡するためのオープン仕様「Agent Trace」を発表した。AIエージェントの高度化が進む一方で、その内部で何が起きているのかを人間の目で確認するのが難しいという問題が顕在化している。Agent Traceでは、エージェントの思考や行動の履歴を体系的に記録・可視化することで、こうした課題に対処する。
多くのエージェントは、長期にわたるタスクの途中で思考過程や判断理由を失ってしまう。ユーザーの手元には結果だけが出力されるため、誤動作を起こした場合などの原因究明や途中介入が難しくなる。この断絶を防ぎ、エージェントが連続的にコンテキストを保持し続けられるようにすることがAgent Traceの目標だ。
本稿執筆時点ではたたき台となるバージョン0.1.0仕様が公開されており、今後は各ベンダーのコーディングエージェントでの実装を進めながら、改善点などについて議論される見込みとなっている。
xAI、最大10秒・720pの動画を生成可能な「Grok Imagine 1.0」公開
2月2日、xAIは同社の生成AI技術を基盤とした画像・動画生成AI「Grok Imagine 1.0」を公開した。Imagine 1.0は、テキストプロンプトから画像や動画を生成できるAIサービスで、最も大きな特徴は、720pの高解像度で最大10秒の動画を生成できる点だ。これにより、従来の低解像度中心だった生成動画から一段階進み、実用的な品質を備えた映像生成が可能となった。
xAIによれば、Imagine 1.0は被写体の動きの一貫性や安定性を重視した設計になっており、短いクリップだけでなく、連続したシーン表現でも破綻しにくい構造を採用しているという。また、スタイルや構図、カメラワークに関する指示への追従性も向上しており、クリエイティブ用途だけでなく、プロトタイピングやビジュアル検証といった実務的な活用も想定している。xAIは今後、解像度や生成時間、制御性のさらなる改善を進めるとのことだ。
Alibaba、コーディングエージェント向けのオープンAIモデル「Qwen3-Coder-Next」公開
2月3日、Alibabaはコーディングエージェントとローカル開発向けに最適化したオープンウェイトの大規模言語モデル「Qwen3-Coder-Next」を公開した。総パラメーター数が80B(800億)であるのに対し、推論時に実際に計算へ使われるアクティブパラメーターを3B(20億)に抑えることで、モデルサイズに比して軽快な動作とコスト効率を実現している点が大きな特徴。
性能としては、環境からのフィードバックを直接学習に取り入れることで、エージェント的な長期推論、複雑なツール利用、実行エラーからの復帰など、実際の開発現場で求められる能力を実現している。エンジニアリング能力を評価する「SWE-Bench Pro」ベンチマークではDeepSeek-V3.2やGLM-4.7などと同等の評価を獲得しているが、Qwen3-Coder-Nextはこれらのモデルよりもアクティブパラメーター数が10~20分の1なのが注目すべきポイントだ。すなわち、より低いコストで競合するモデルと同等の性能を発揮できることを意味している。
Qwen3-Coder-Nextは、軽量かつ高性能なコード生成・エージェントモデルとして、ローカル環境での開発支援やAIエージェントの基盤モデルとして注目されている。
Anthropic、「Claude Opus 4.6」リリース - 幅広い高度な知的作業をサポート
2月5日、AnthropicはフラッグシップAIモデルの最新版「Claude Opus 4.6」を発表した。前バージョンの4.5を基盤として、コーディング能力、計画立案、複雑な推論タスクへの対応力を大幅に強化しており、とくに長期的な作業の遂行や、大規模なコードベースの理解およびデバッグ精度が向上している点が特徴。また、ベータ版ではOpusシリーズとして初めて100万トークンのコンテキストウィンドウに対応し、膨大な文書や長文データを一括で扱えるようになった。
Opus 4.6は、プログラミング用途にとどまらず、財務分析、調査業務、文書・スプレッドシート・プレゼンテーション資料の生成など、幅広い知的業務を支援する。評価ベンチマークでは、エージェント的なコード生成や検索、推論タスクにおいて業界最高水準の性能を示し、競合モデルを上回る結果を記録したという。加えて、開発者向けAPIには適応型思考(Adaptive Thinking)や計算負荷を調整するeffortパラメーターによる制御といった新機能が導入されており、実運用での柔軟性が向上した。
Anthropicは、Opus 4.6の特徴として大量の文書から関連情報を正確に抽出する能力が大きく向上した点も挙げている。長大なコンテキストでも情報の保持や追跡が安定しており、従来問題とされてきた「コンテキスト劣化」も大幅な抑制にも成功したとのこと。長文中に埋もれた情報を探し出す能力が前世代を大幅に上回っており、長文理解とその後の高度な推論を両立できる点が大きな進化と言える。
OpenAI、コーディングの枠を越えて進化した「GPT-5.3-Codex」リリース
2月5日、OpenAIはエージェント型コーディングモデルの最新版となる「GPT-5.3-Codex」をリリースした。発表のタイミングが競合のAnthropicがClaude Opus 4.6をリリースした直後だったこともあり、大きな注目を集めた。
同モデルは、前バージョンであるGPT-5.2-Codexの高度なコード生成能力をベースに、GPT-5.2が有する高い推論力と専門知識を統合したもの。処理速度は約25%向上し、研究やツール利用、複雑な実行を伴う長期タスクにも対応可能な能力を備えるとされている。
GPT-5.3-Codexを評価する上で最も重要とコーディング能力では、エンジニアリングを厳密に評価するベンチマーク「SWE-Bench Pro」と、ターミナルスキルを測定する「Terminal-Bench 2.0」で、それぞれ最高水準のスコアを獲得したことが示されている。単なるコーディングだけでなく、デバッグやデプロイ、監視、PRD作成、テスト、メトリクス管理など、ソフトウェア開発ライフサイクル全体の業務支援能力が強化されているという。
OpenAIの説明によれば、GPT-5.3-Codexは初めて自身の開発プロセスに実際に使われたAIモデルになったという。Codexチームは、トレーニングのデバッグ、デプロイメントの管理、テスト結果や評価の診断などの作業を、初期バージョンのGPT-5.3-Codexを利用して行った。その結果、モデル自身の開発を大きく加速させる成果が得られたとのこと。
そのほか、GPT-5.3-Codexではサイバーセキュリティ関連タスクの性能も大きく向上している。OpenAIによれば、GPT-5.3-Codexは同社の「Preparedness Framework」で初めて最高レベルとなる「High capability(高能力)」を獲得したという。これにより、安全性を重視したトレーニングや自動モニタリング、アクセス管理、脆弱性の発見といったサイバーセキュリティ分野での活躍も期待されている。




