Scale AIなど、新たなAIベンチマーク「Humanity’s Last Exam」を公開

Scale AIとThe Center for AI Safety(CAIS)は1月24日、新しいAIベンチマーク「Humanity’s Last Exam」を発表した。直訳するなら「人類最後の試験」。「人類の専門的知識の最前線でAIの知識を試す」としている。Scale AIはAIツール、アプリケーションの構築ツールを開発しており、CAISは2022年設立のAI安全性研究組織だ。

人類の知識と推論の最前線でモデルの能力を試す

Humanity’s Last ExamはAIシステムが、数学、人文科学、自然科学などの分野において世界最高レベルの知識を試すことを目指して開発したベンチマーク。マルチモーダルに対応する。

背景にあるのは、ベンチマークの飽和。高いベンチマークを出していてもベンチマークテスト以外には、答えられない可能性があるモデルの存在を指摘している。そこで、Scale AIとCAISは専門家から問題を募り、AIモデルに挑戦すべく最も難しい問題を広範囲に集めたという。

OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet、Google Gemini 1.5 Pro、OpenAI o1など、既存のモデルの正答率は10％未満という。50カ国500以上の機関から約1000人が貢献し、収集した問題は7万問以上となる。

これを1万3000問程度に絞り込み、最終的に3000問のベンチマークを作成した。貢献のレベルに対して、最上位の50問にそれぞれ5000ドル、次のレベルの500問には500ドルを授与した。

CAISの創設者兼エグゼクティブディレクターのDan Hendrycks氏は「人類の知識と推論の最前線でモデルの能力を試す問題を求めていた」とコメントしている。

2021年に難しい競争数学データセットとしてMATHを公開した時、最高スコアは10%未満だったのが、わずか3年後に90%以上のスコアを達成したことに触れ、「Humanity's Last Examは、モデルが答えられない専門家レベルの問題がまだ存在することを示している。この状況がどれだけ続くか見守りたい」と続けている。