プロジェクトの副ディレクタを務める国立情報学研究所の稲邑哲也准教授は、人工知能にとってなぜ大学入試はチャンレンジグかと題して講演を行った。

副ディレクタの国立情報学研究所の稲邑哲也准教授

こぼした食塩を取り出す問題

こぼした食塩を取り出す問題は、東大ではなく中学の問題であるが、この問題は中学の理科の教科書に書かれている知識だけでは解けず、正解するには、実体験(あるいは常識)に基づく論理的思考が必要である。

3つのバネの図の理解

受験生なら、上図は3つの異なるバネが描かれているのではなく、1本のバネを伸ばした状態の図であると無意識に理解してしまうが、これは人工知能にとっては容易ではない。画像から得られる意味のグラフ化と問題を説明する自然言語から得られる意味のグラフ化を行い、それらの整合性が取れるように解釈を調整する必要がある。

2009年のセンター試験の物理の問題

このセンター試験の物理の問題では、摩擦を考慮してバネの戻り量を解く必要性があり、単に知識を適用するだけでなく、シミュレーションにより値を求める必要が出てくる。

2010年の東大の物理のジェットコースターの問題

この2010年のジェットコースターの問題は、受験生であれば、中央に1回のループがある連続したトラックであると容易に理解できるが、この図だけからでは、下に凸のカーブと、それに接する円とも考えられてしまう。そのどちらであるかは経験に基づく知識が必要であり、人工知能にとっては非常に難しい問題であるという。

研究スケジュール

平成23年から27年の前半の5年間は、主にセンター試験の選択問題に対応する問題文と図の理解とそれに基づくシミュレーションモデルの作成、そしてシミュレーションと回答の選択肢のマッチングを研究開発し、後半の5年間で筆記試験に対応し、結果を言語で説明する技術や詳細なシミュレーションではなく簡易なシミュレーションで正解を求める技術の研究開発を行うという計画になっている。

もう1人の副ディレクタの国立情報学研究所の宮尾祐介准教授は、知識を問う暗記問題はコンピュータが得意という面はあるが、単に教科書の知識を記憶していれば解けるというものではなく、大きなチャレンジがあるという。

副ディレクタの国立情報学研究所の宮尾祐介准教授

知識を問う問題では意味的な一致の認識が必要

この図の上側の枠に書かれているのが問題で(1)と(2)のどちらが正しいかという設問である。教科書の中には下の枠内の文章があり、(1)が正しいのであるが、下の教科書の文と(1)の文はまったく同じではなく、同じ意味であるかどうかを認識しなければ正解できない。

このように教科書の記述が正しいとすると、別の記述も正しいという関係を含意関係という。知識を問う問題に正解するには、このような含意関係が成り立つかどうかを正しく判定することが重要である。

このプロジェクトを立ち上げるまでに、東大の入試合格という目標で実現の可能性があるかどうか、人工知能研究にとっての意味はどうかなどの種々の検討と並行して予備的な検討を行ってきており、すでにIBM東京基礎研究所、カーネギーメロン大学(CMU)、京都大学、東北大学、北陸先端大学院大学、そしてインドのJadavpur Unviersity(JUCS)の6団体が参加を表明しているという。IBMはチェスのDeep BlueやJeopardy!のWatsonで実績のある企業で、CMUも人工知能では先端的な大学であり、世界的にみてもトップレベルの研究機関がこのプロジェクトにすでに参加している。

国立情報学研究所がセンター試験の選択肢とWikipediaを使い、世界史A・B、日本史A・B、政治経済、現代社会に関して含意関係認識の評価データを作成し、これらの6機関に提供して評価を行った。

提供されたセンター試験の含意評価データの例

参加機関のシステムのセンター試験の正答率

各機関は複数のシステムを作っており、全体では14システムがセンター試験に挑戦した。この表は、センター試験の一部の科目の主に知識を問う問題の人工知能システムの正答率であるが、最も良い結果を示したのがIBM-1で57.7%の正答率であった。また、IBM-2、CMU-3、京都‐2、京都‐3、北陸3も50%程度の正答率となっている。センター試験全体ではないが、大部分が4択の問題であるので、ランダムに答えた場合の25%の正答率よりはかなり良い。しかし、受験生の平均が6割弱の正答率ということと比べると、IBM-1はかろうじて受験生の平均レベルで、その他のシステムは平均以下である。そして、東大に入るには9割程度の正答率が必要であるが、これには遠く及ばないという現状である。

含意関係の認識精度と正答率の関係

この図に示されるように、含意関係の認識精度と正答率は強い相関が認められる。60%の認識精度では50%強の正答率であり、認識精度を100%にできれば東大レベルの9割以上の正答率も可能であると思われる。

しかし、大学入試は知識を問う問題ばかりではなく、次に示す2009年のセンター試験の倫理のような問題は、人間ならば下の枠に書かれたWikipediaの「自己同一性」の記述を知っていれば分かる問題であるが、抽象概念と具体的状況の整合を認識する必要があり、このような含意関係の手法だけでは解けない。

まだ解けないセンター試験の倫理の問題

また、知識を問う問題でも、教科書の中の1カ所だけの記述との含意関係ではなく、複数の関連する知識の検索が必要となったり、出題意図や回答方法の指定を理解して、それに従った回答を作り出すなどの必要があり、これも一筋縄では行かない。

2009年の東大の日本史の問題

ということで、知識の検索、含意関係の認識、出題意図の認識などのレベルを超えて、時間、空間、そして因果関係の推論、シミュレーション、常識などを統合した段階に人工知能を高めるというチャレンジが必要となるという。

知識を問う問題の先には多くのチャレンジが待ち構えている

これらの講演に引き続き、人工知能の研究者で慶応義塾長や情報処理学会会長などを歴任した安西祐一郎氏、データベースの研究者の東大の喜連川優教授、そして、基調講演を行った松原教授、プロジェクトディレクタの新井教授というメンバーでパネルディスカッションが行われた。写真には写っていないが、司会はSF作家の瀬名秀明氏である。

パネルディスカッションのメンバー

安西氏は、10年という期間で可能かどうかは分からないが、いずれはロボットは東大に入れると述べ、このグランドチャレンジは可能との見解を示した。また、東大に入ることが重要ではなく、人工知能の基礎研究をちゃんと推進してもらいたいと述べた。また、喜連川教授も東大に入るというのは、誰にも分かる達成感のある良い目標であると評価し、ITの基礎研究は重要で、王道を一歩一歩進む研究が重要と指摘した。

また、ロボットでも解けるような入試が良いのか、柔軟な変化に対応できるような人材が求められており、地頭力を測定できるような入試問題とすべきではないか。そのような目的にもこの研究成果が応用できるのではないかという議論も出たが、新井教授は、このプロジェクトとしてはそこまで範囲を広げず、人工知能の研究開発という範囲でしっかりやるべきとの意見であった。

このシンポジウムはキックオフであり、この「ロボットを東大にいれる」プロジェクトは緒に就いたばかりで、10年後の目標達成が約束されている訳では無いが、このグランドチャレンジの成功は、人工知能の研究にとって大きなマイルストーンの達成となり、その進歩に大きく貢献すると期待される。また、仮に期間内に目標が達成されなかったとしても、多くの重要な技術が生み出されるであろう。

一方、ロボットが東大の入試に合格するということと、東大に入学して講義を聞いて学習し、単位を取って卒業するというのには大きなギャップがある。また、実社会では、問題の定義が不明確であったり、十分な情報がなく、正解があるかどうかも分からないという問題も多く、教科書+常識の範囲内で正解のある入試問題を解く能力だけでは実社会に対応するには不十分である。ということで、このプロジェクトの成功が、直ちに東大やその他の大学の卒業生をロボットが代替するということにはならないと考えられる。