大学入試共通テストを3種の生成AIに解かせてみたら……「GPT-4はバケモノ」だった - ネット「数学苦手なの？」

企業へのAI導入コンサルティング業務を提供する企業・LifePromptが1月16日、大学入試共通テストを3つの生成AIに解かせる実験をおこない、その結果をを公開した。その結果によると、「やはりGPT-4はバケモノ」だったそうだ。この実験がネットで「面白い」「数学苦手なんや」などと話題になっている。

「GPT-4」と「Bard」、「Claude2」。一番賢いの誰だ

本実験は、米Open AI社の「ChatGPT(GPT-4)」と、米Google社の「Bard」、米Anthropic社の「Claude2」のそれぞれの性能を比較するためのもの。2024年の大学入試共通テストのうち、国語・英語(リーディング)・数学(1A、2B)・社会(世界史・日本史)・理科基礎の5教科7科目について、テキストか画像で試験問題をAIに入力し、テキストでの出力内容をもとに答え合わせをおこなった。

実験の結果、「GPT-4」がダントツで、数学以外の科目で受験者平均を超えたそうだ。Claude2もGPT-4には及ばなかったものの、複数科目で受験者平均を上回ったという。

赤字は受験者平均点を超えた箇所。「GPT-4」が頭一つ抜けている感じ

同社は、この結果について、「GPT-4の生成AIとしての性能がシンプルに高い」「他のAIに比べてプロンプトや効果的な活用方法が研究されているため、ポテンシャル発揮率が高かった」と考察した。また、「とりわけリンク化された画像を読み取る性能や、解釈が定まっている事実を的確に取り出す能力の高さは、社会や理科を回答させている中で実感できるレベル」だったとのこと。

一方、どの生成AIも「複数の処理を同時に求められると急激にパフォーマンスが悪くなる」傾向にあったという。たとえば、日本の史実を年代順に並び替える問題では、「与えられた文章の年代を特定する」「3つの出来事を古い順に並び替える」という動作を、一つの問題の中で同時に求められると、年代特定が不正確になったり、出来事の並び替えが正常に行えなくなったりするようだ。また数学は、特殊な解答形式に対応できず、どのAIも点を取れていなかったとのこと。

このほか同実験では、「GPT-4」と「Bard」、「Claude2」において、それぞれの解答の特徴についても考察している。興味があればチェックしてほしい。

ネット上では「コンピュータなのに数学が苦手なんやな」「要するに、日本の将来を担う人材に求められる能力は、AIがだいたい備えてるってことだよな…」「ある意味、シンギュラリティはもう来ているのかもねえ」「」「満点近く取れるのかと思ったぁ😲」「これは面白い」などの声が寄せられた。

大学入試共通テストを3種の生成AIに解かせてみたら……「GPT-4はバケモノ」だった - ネット「数学苦手なの？」

編集部が選ぶ関連記事

さくらインターネット「高火力」サービス提供へ - 日本国内で使えるNVIDIA H100インスタンス

Google Chromeに生成AI機能、「タブ整理」「テーマ作成」「草案」など

SteamでもAI生成コンテンツ含有ゲーム販売認可へ。1月1日からWindows 7 / 8.1はサポート外

Appleの生成AI研究成果、数秒のビデオから3Dアバターを短時間で作成「HUGS」

関連キーワード

カレー沢薫の時流漂流第309回サイバー攻撃が巨大な社会問題となった現代、頑張れニコ動

カレー沢薫の時流漂流第308回もはやX民すらドン引きする日本の選挙、せめてトイレと窓は磨いておこう

カレー沢薫の時流漂流第307回ところでフロッピーはデジタル規格だと思うが日本の「アナログ狩り」の話

カレー沢薫の時流漂流第306回 Xの「いいね」廃止が改悪か改善か本当にわからない相互理解の難しさ

カレー沢薫の時流漂流第305回ステマお願いしゃっす！ ※この記事は原稿料を貰って書いています。

カレー沢薫の時流漂流第304回責任者を出せ！の「責任者」は誰？グーグルマップの「口コミ」でグーグルが訴えられる

このカテゴリーについて

大学入試共通テストを3種の生成AIに解かせてみたら……「GPT-4はバケモノ」だった - ネット「数学苦手なの？」

編集部が選ぶ関連記事

さくらインターネット「高火力」サービス提供へ - 日本国内で使えるNVIDIA H100インスタンス

Google Chromeに生成AI機能、「タブ整理」「テーマ作成」「草案」など

SteamでもAI生成コンテンツ含有ゲーム販売認可へ。1月1日からWindows 7 / 8.1はサポート外

Appleの生成AI研究成果、数秒のビデオから3Dアバターを短時間で作成「HUGS」

関連キーワード

カレー沢薫の時流漂流 第309回 サイバー攻撃が巨大な社会問題となった現代、頑張れニコ動

カレー沢薫の時流漂流 第308回 もはやX民すらドン引きする日本の選挙、せめてトイレと窓は磨いておこう

カレー沢薫の時流漂流 第307回 ところでフロッピーはデジタル規格だと思うが日本の「アナログ狩り」の話

カレー沢薫の時流漂流 第306回 Xの「いいね」廃止が改悪か改善か本当にわからない相互理解の難しさ

カレー沢薫の時流漂流 第305回 ステマお願いしゃっす！ ※この記事は原稿料を貰って書いています。

カレー沢薫の時流漂流 第304回 責任者を出せ！ の「責任者」は誰？ グーグルマップの「口コミ」でグーグルが訴えられる

このカテゴリーについて

カレー沢薫の時流漂流第309回サイバー攻撃が巨大な社会問題となった現代、頑張れニコ動

カレー沢薫の時流漂流第308回もはやX民すらドン引きする日本の選挙、せめてトイレと窓は磨いておこう

カレー沢薫の時流漂流第307回ところでフロッピーはデジタル規格だと思うが日本の「アナログ狩り」の話

カレー沢薫の時流漂流第306回 Xの「いいね」廃止が改悪か改善か本当にわからない相互理解の難しさ

カレー沢薫の時流漂流第305回ステマお願いしゃっす！ ※この記事は原稿料を貰って書いています。

カレー沢薫の時流漂流第304回責任者を出せ！の「責任者」は誰？グーグルマップの「口コミ」でグーグルが訴えられる