1月26日、「AI王~クイズAI日本一決定戦~」の第4回コンペティション最終報告会が東京のキオクシア本社にて開催された。AI王は、日本語のクイズ問題を題材とした質問応答システムのコンペティションで、日本国内の質問応答研究を促進させることを目的に2021年から実施されている。第4回の実行委員長は東北大学 教授/言語AI研究センター センター長の鈴木潤氏が務めた。
今回は、「早押し解答部門」と「問題作成部門」の2部門が設けられ、10月6日からコンペティションを開始。予選、本選を経て迎えた最終報告会では早押し解答部門2チーム、問題作成部門5チームがそれぞれのシステムについて発表した後、「AI王×クイズ王 エキシビションマッチ」が部門ごとに開催された。本稿ではこの最終報告会の詳細をレポートする。
LLM全盛の今、クイズAIも新たな時代へ
冒頭、鈴木潤氏 はAI王の構想を立ち上げた2020年頃を振り返り、「当時、日本では質問応答研究がそれほど盛り上がりを見せておらず、世界的な流行との乖離を感じていた」と話した。そのため、日本の、あるいは日本語の質問応答研究を促進し、技術や知識を習得する場を提供したいという思いで、多くの人に研究テーマとして興味を持ってもらえそうな「クイズ」を題材に、 第1回AI王を開催したのだという。
「2022年11月末にChatGPTが無償公開され、大規模言語モデル(LLM:Large Language Models)全盛の時代に突入しました。クイズAIも新たな時代へと入ったのです」(鈴木氏)
早押し解答部門は2つのモデル採用が主流
早押し解答部門ではエントリーがあった8チームのうち、2チームがシステムの構成や所感、改善点などを発表。この部門では、あらゆる情報を駆使してクイズ問題に早く正確に答えることが重視され、問題の冒頭何文字で正解できるかが評価対象となった。いくつかのルールが指定されており、主なものとしては誤答は3回まで、データは無償公開されているものを使用、利用可能な計算リソースは単一の計算機内のリソースで動作すること、実行時のネットワーク利用は不可などがある。システムの評価は問題文のみ公開されている500問のリーダーボードと、問題文非公開の300問の最終評価でなされる。
チーム「NU-cedar」の名古屋大学情報学研究科修士1年・杉浦尚弥氏はLLMのみを用いたアプローチを紹介し、2回目までの解答をする早押し用モデルと、3回目に最後まで問題を読み切ってから答える読み切り用モデルの2種を用意したと説明。早押し用モデルについて、「早押しクイズならではの“ですが問題”に見事に引っかかるため、(回答するかどうかを判定するための) 閾値の判断が難しかった」と話すと、参加者らは大きく頷き、「早押しならではですね」といった声が上がった。
チーム「ICS Lab.」のベルシステム24ホールディングス・金本勝吉氏は、特定の文字数では早押し用モデル、出題文の末尾が「?」の場合は最終解答用モデルという2つのモデルを学習させたシステム構成を発表した。特定文字数とした理由は、全ての文字数だと計算が間に合わないためだとし、現在のシステムでは「1文字ごとに12秒の計算時間がかかるため、人間にはまだまだ及ばない」と述べた。
ChatGPTとWikipediaライブラリの活用が多くを占めた問題作成部門
問題作成部門ではエントリーがあった7チームのうち、5チームがモデルの構成や所感、改善点などを発表した。この部門では、文法などが正しく、嘘がなく、テーマに沿った面白いクイズを自動生成することが重視される。データは無償公開されているものを使用、利用可能な計算リソースは単一の計算機内のリソースで動作することというルールは早押し解答部門と同様だが、こちらは、ある程度のコスト制限を設けた上で、クラウドサービスの利用も可能というルールになっている。システムの評価については、予選・本選はQuizKnockを運営するbatonの徳久倫康氏が、文章が正しいか、テーマに沿っているかなどで判断。最終審査として、エキシビションの解答者3名からの主観評価が加わり、その合計得点で評価される。
チーム「Kobat787B」の早稲田大学大学院・小林俊介氏はLLMではなく、Fusion-in-Decoderを用いたモデルを発表。実際の生成結果のデータを示しながら、「LLMを用いる以上にハルシネーションの問題が大なり小なり生じてしまったが、必ずしもLLMを使わなくても一定のシステムが構築できることがわかった」とその成果を話した。
チーム「chumajin」のキオクシア・中真人氏は、Wikipediaの情報と、AI王から検索・抽出しで出題された過去問のデータをChatGPTにAPIで入力するいわゆるRAG(Retrieval Augmented Generation、検索拡張生成)によるモデルを紹介。プロンプトには今回の採点指標を項目に入れたり、「あなたはクイズ作家のプロです」「絶対に選択問題にしない」「必ず最後は『?』にしてください」といった項目を指定したりしたと説明した。
チーム「ELAIZO」の明治大学理工学部情報科学科3年にしてAI受託企業・EpicAIの創業者である和田幸志郎氏はLLMとしてGPT-4を、RAGのためにWikipediaライブラリを、プロンプト作成にはSelf-Refineを使用したモデルを示した。クイズらしさを出すための工夫として、問題文中の語句に修飾をつけることを評価する仕組みにしたという。
チーム「Takahiro Takeda」のパナソニック ソリューションテクノロジー・武田鷹広氏も、ChatGPT(GPTs)、Wikipediaライブラリを用いたモデルを紹介した。出題テンプレートとして、言語問題、由来問題、学習系問題とパラレル問題(=“ですが問題”)を検討したことや、GPTsと英語の相性が良い点やトークン数のカウントに優位があることから、英語を多用したプロンプトを作成したことなどを明かした。
チーム「YAMALEX」のアクロクエストテクノロジー・山本大輝氏は、Wikipediaのコンテキストを利用し、GPT-4で問題文を作成。出力された問題文をGPT-3.5で採点し、さらにGPT-4で修正するというモデルを示した。問題文と想定解が対応しているかどうかの評価が一番難しかったとした上で、「採点基準の明文化や、採点モデルの作成ができると、なお良くなるのでは」と語った。
3人のクイズ王とAIが対決
続いて開催された早押し解答部門のエキシビションマッチには、エントリーしたAIシステム(AI王)と対決するクイズ王として、QuizKnockの鶴崎修功氏、構成作家・クイズ作家の矢野了平氏、徳久氏が登壇。AI王が事前に解答済みの300問の中から出題され、個人で7ポイント先取した方が勝ちというルールで進められた。試合中盤、AIが優位になった際にはクイズ王3名が作戦会議を開く場面も見られたものの、第一試合の最終結果はICS Lab.のシステムが勝者となった。続く第二試合はクイズ王及びAIシステム(AI王)全体の得点を合計する団体戦に変更、徳久氏は「人類の力を示していく」と意気込みを語り、無事クイズ王チームが勝利した。続いて、第三試合もクイズ王チームが勝利し、クイズ王たちは安堵の表情を見せた。
「ガチで人間と戦うレベルのAIが出てきました。テレビでもそういうことができそうですね」(矢野氏)
続いて問題作成部門の最終審査を兼ねたエキシビションマッチには鶴崎氏、矢野氏と、クイズ作成などを主事業とするキュービック 代表取締役の仲野隆也氏が登壇。AI王が作成した10問を3名が実際に解答した後、「最もイベントが盛り上がる問題」を選出した。
仲野氏は、「まだ、分岐点づくりなどクイズを作成する上での複合的な要素はAIに教えないといけないことはあると思う」とした上で、「クイズを作成する僕らとしては、AIがここまでつくれるんだということに恐怖も感じた」とコメント。
鶴崎氏も、「クイズの問題として成立しているものが半分以上あったと感じている」と語る。
「そのまますぐにクイズ大会の問題として使えるわけではありませんが、もう一歩進化すれば、使えそうな気がしています」(鶴崎氏)
AI王を通じて、自然言語処理をより身近に
エキシビションマッチの後、各部門の優勝者が発表された。早押し解答部門では正解率95%を誇ったICS Lab.が優勝。実は同チームは、第2回、第3回と準優勝が続いており、金本氏は「これまで悔しい思いをしてきたので、4回目のチャレンジで優勝できてうれしい」と喜びを表した。
問題作成部門ではTakahiro Takedaが優勝。鶴崎氏が「問題文が広いスコープから始まり、狭いスコープに近づいていく流れが上手くできていた」と評したことを受け、武田氏は「『前半で雑学的になるように、後半を答えが絞れるようにしてください』というプロンプトを入れた」ことを明かした。
「エキシビションマッチを通して、現状のクイズの世界にAI王を持ち込んだらどうなるかを考えていました。早押し部門では、(早押し界の)5本の指に入ることは間違いないかな。一方、問題作成部門はまだまだ改善の余地があります。高校でクイズを始めた1年生の7月あたりのイメージです。これが夏休みを超えるとめちゃくちゃ成長します。AI王の成長を楽しみにしています」(鶴崎氏)
報告会の最後には、AI王の実行委員でプロジェクト発起人である鈴木正敏氏が次のように語り、第4回の総評とした。
「早押し解答部門については、本来早押しクイズにある音声認識や、現実的な時間内に解答するといった多くの要素を捨象しました。ですので、早押しAIが実現したかと言えば、たぶんまだノーでしょう。とは言え、限られた情報から正解を導けるすごさも感じました。ChatGPTに代表される生成モデルの出現を背景に開催した問題作成部門では、生成モデル活用の現在の到達点の1つを示せたのではないかと思っています。AI王をきっかけに、自然言語処理、またはクイズに興味を持ってくれる方が少しでも増えてくれるとうれしいです」(鈴木正敏氏)