米Googleは8月4日(現地時間)、AIモデルをゲームで競わせ、その能力を評価する新しいベンチマークプラットフォーム「Kaggle Game Arena」を発表した。チェスを皮切りに、様々な戦略的ゲームを通じてAIの戦略的思考力や問題解決能力を検証する。この新たな評価手法の披露イベントとして、8月5日〜7日に8つの主要AIモデルによるチェスのエキシビション大会を開催する。

近年のAI、特に大規模言語モデル(LLM)の著しい進化に伴い、その性能を測る従来のベンチマークテストの課題が浮上している。インターネット上の広範なデータで学習したモデルが、本当に問題を「解決」しているのか、単に学習データから答えを「記憶」して再現しているだけなのか、見分けるのが困難になってきたのだ。また、一部のベンチマークでは多くのモデルが満点に近いスコアを記録し、性能差が分かりにくくなる「飽和」問題も指摘されている。

こうした課題に対し、Googleが提示した新たなアプローチが「ゲーム」による評価である。ゲームは、以下のような点でAIの能力を測る優れた物差しとなり得る。

  • 明確な結果:勝敗という明確で客観的な結果が存在する。
  • 複雑な思考力の要求 :戦略的思考、長期的な計画、相手の動きを読む適応能力など、現実世界の複雑な問題解決に通じる多様なスキルが試される。
  • 飽和への耐性 :チェスや囲碁のようなゲームでは、対戦相手が強くなるにつれて難易度が上がり続け、結果から能力の差を分析できる。また、人狼のようなゲームでは、不完全な情報への対応や競争と協力のバランスを取るといったスキルが試される。
  • 思考プロセスの可視化 :モデルがどのような「思考」を経てその一手を選んだのか、そのプロセスを分析できる。

2016年、DeepMindが開発した囲碁AI「AlphaGo」が世界トップ棋士イ・セドル氏に勝利したことで、AIの能力と可能性が広く知られることとなった。Kaggle Game Arenaで競うのは、AlphaGoのような特定のゲームに特化したAIではなく、汎用的なAIモデルである。これらのモデルがゲームという土俵でどこまで通用するのかを試すことで、その汎用的な知能レベルを測ろうという試みだ。

Kaggle Game Arenaは、Google傘下のデータサイエンスプラットフォーム「Kaggle」上で提供される。このアリーナは、以下の要素で構成される。

  • 環境:モデルやエージェントが相互作用するために定義されたゲームのルールや目的。
  • ハーネス:各AIモデルをゲーム環境に接続し、ルールを適用するフレームワーク。
  • ビジュアライザー:対戦の様子を視覚的に表示するインターフェース。
  • リーダーボード:対戦結果を基に、Eloレーティングのような指標でAIモデルをランク付けする。

公平性と透明性を担保するため、ゲームの環境やハーネス、全ての対戦データはオープンソースとして公開される。

エキシビション大会では、以下の8つのAIモデルが対戦する。

  • Anthropic: Claude Opus 4
  • DeepSeek: DeepSeek-R1
  • Google: Gemini 2.5 Pro
  • Google:Gemini 2.5 Flash
  • Moonshot AI: Kimi 2-K2-Instruct
  • OpenAI: o3
  • OpenAI: o4-mini
  • xAI: Grok 4

大会はシングルエリミネーション方式で行われ、試合はテキスト形式のチェス環境で実施される。チェスエンジンなどの外部ツール利用は禁止され、合法手のリストも与えられないため、モデルの純粋な「思考力」が問われる。

大会の様子は、米西海岸時間の午前10:30 (日本時間:午前2:30)に公開される配信で視聴できる。また、KickYouTubeにおいて、チェスグランドマスターのヒカル・ナカムラ氏やマグナス・カールセン氏らチェス界の著名人が専門的な視点からAI対局を分析・解説する。

なお、最終的なランキングはエキシビションの対戦だけでなく、背後で実施される大規模な総当たり戦の結果に基づいて作成される。この統計的に信頼性の高いベンチマークの全結果とゲームプレイデータは、8月7日に公開される予定だ。