各社のサービスやローカルLLMでの活用など広がりを見せる多様なAIモデル。GPUの有無やクラウド環境での活用など、使う人の環境や目的により様々な使い方があるが、ベンチマークも学術分野の正答率や文脈理解や文章生成能力を計測するものまで様々だ。AIエージェント技術や最先端AIモデルの研究や開発を行うSakana AIは、数独パズルとその派生版を用いたベンチマーク「Sudoku-Bench」を3月にGitHubで公開しているが、このほどそのリーダーボードを公開した。
9×9のマスの各行列と3×3の各ブロックで重複せずに1から9までの数字をならべる数独(商標:ニコリ)。最先端のAIモデルの数々であれば、簡単に解いてくれるのだろうと思いきや、OpenAIの高度な推論能力を持つo3 mini highモデルでも正答率は2.9%。
公式ブログでは、その概要や解説を掲載している。大規模言語モデル(LLM)では、論理的な思考プロセスを追うリーズニング能力(reasoning ability)を正確に評価する重要性が増しており、これを測定する目的でこのベンチマークを作成したとのことだ。ベンチマークには4x4、6x6、9x9の各問題のほか、難易度があがる複雑なものまで100のデータセットが用意されている。数独においては、人間の熟練者は特定のメソッドを用いて探索的なリーズニングを行い、チャンピオンレベルでも数時間はかかるという。圧倒的な能力を見せつけるLLMだけに意外に思うかもしれないが、"現代数独は今のAIにはまだ難しい"ということだ。まだまだ、人間の能力には敵わない。それだけに開発の余地も大きいということになるのだろう。