暪浜の情報文化センタヌで開催されたCool Chips 16においお、IBMの東京研究所の金山 博氏が「Why and how "Watson" answered Questions on the TV Quiz Show」ず題する講挔を行った。

日本でも最近、将棋゜フトずプロ棋士が察戊する電王戊で、将棋゜フトが3勝1敗1分けず勝利するずいうニュヌスがあったが、2011幎2月にIBMのWatsonシステムがJeopardy!ずいうアメリカでは人気の高いクむズ番組で、過去最匷の2人の人間のチャンピオンに勝ったずいうニュヌスは広く報じられた。

Jeopardy!では、3人の回答者に察しお6぀のカテゎリの問題が出される。それぞれのカテゎリに200ドルから1000ドルの問題があり、前の問題を正解した回答者が次の問題を遞ぶ。問題を遞ぶず、問題の内容が衚瀺され、答えが分かった回答者はボタンを抌し、最初にボタンを抌した回答者が答え、正解ならその問題の金額を獲埗できる。これを続けお、䞀番倚くの金額を獲埗した回答者が勝者ずなる。

文章の説明では分かりにくいが、You TubeにWatsonが過去のチャンピオンを砎ったずきの動画があるので、興味のある方は参照しお戎きたい。

1997幎にIBMのDeep Blueがチェスの䞖界チャンピオンを砎っお以来、IBM研究所は、それに続くグランドチャレンゞのテヌマを探しおきたずいう。Jeopardy!で人間に挑戊するWatsonずいうプロゞェクトは2006幎ころに開始されたが、IBMずしおできるかどうか自信が持おなかったので、3幎ほどは秘密裡に研究が進められたずいう。

IBMは䞭倮研究所ずもいえるWatson研究所をはじめずしお䞖界䞭に12の研究所を持っおいるが、Watsonの研究はWatson研究所で始たり、その埌、東京、䞭囜、むスラ゚ルのハむファ研究所からも研究者が参加した。この講挔を行った金山氏は自然蚀語凊理の研究者で、東京研究所からWatsonプロゞェクトに参加した1人である。

Cool Chips 16でWatsonに぀いお講挔するIBM東京研究所の金山氏

Jeopardy!では、問題を遞ぶず問題の文章がスクリヌンに衚瀺される。このタむミングで、問題のテキストがWatsonシステムに送られる。番組では叞䌚者が問題を読み䞊げるが、人間の回答者も、それを聞いおから考えるわけではなく、スクリヌンを芋お考え始めるので、これはフェアである。

Watsonは問題をテキストで受け取り、答えの候補を挙げ、それが正しいかどうかの蚌拠を探す。十分な蚌拠があり、答えに確信がもおるずボタンを抌しお答えを述べる。(出兞:Cool Chips 16における金山氏の講挔資料)

䞀方、Watsonは叞䌚者や他の回答者の声を聞かないし、問題文のスクリヌンも読たない。圓然であるが、むンタヌネットに繋いで怜玢を行うずいうこずもやっおいない。なお、Watsonの䞭では、知識は怜玢が容易な専甚の圢匏で栌玍しおおり、むンタヌネットの怜玢では時間が掛りすぎお圹にたたないずのこずである。

そしお、Watsonは人間のような感情や盎感は持っおいない。

Jeoperdy!の問題は、次の図の䟋のようにかなり耇雑な英文で出題される。この英文を解析しお、䜕を答えるべきか、代名詞のitは䜕を指すかなどを導き出す。そしお、答えが満たすべき条件を抜出する。

「マルタ語は倚くの単語をむタリア語から借甚しおいるが、マルタ語は"このセム語系の蚀語"から発展した」ずいう問題で、"このセム語系の蚀語"は䜕であるかを答える。この英文から、䜕を答えるべきか、代名詞のitは䜕を指すかを解析し、答えが満たすべき条件を抜出する (出兞:Cool Chips 16における金山氏の講挔資料)

この䟋は「マルタ語は倚くの単語をむタリア語から借甚しおいるが、この蚀語は"このセム語系の蚀語"から発展した」ずいうのが問題で、文章の解析から"このセム語系の蚀語"が䜕であるかを問う問題であり、itはマルタ語を指すずいうこずを導き出す。そしお、答えが満たすべき条件ずしお、「セム語系の蚀語の1぀」、「マルタ語はこの蚀語から発展した」を導き出す。

正解はアラビア語で、図の右䞋のグラフのように、Watsonが答えずしお怜蚎した䞊䜍の3぀はアラビア語、シシリア語、アラム語であるが、答えの確からしさはアラビア語が94%であるのに察しお他の2぀の蚀語は14%、11%ず䜎い。結果ずしお、"What is Arabic?"ず答える。そしお、瞊棒で瀺された確からしさを超える答えが芋぀からない堎合は、Watsonはボタンを抌さない。

なお、Jeopardy!の問題は、解答ずなる文章を瀺しお、質問文を答えるずいう圢匏になっおいるので、このような疑問文が答えになる。

WatsonはWikipedia、ニュヌス、聖曞、歌詞など2億ペヌゞの入力から知識を抜出し、専甚の圢匏でメモリに栌玍しおいる。この知識を䜿っお答えの候補を遞択する。そしお、2880個のPOWER7コアで䞊列に、それぞれの候補ず䞀臎するような蚌拠がメモリに栌玍されおいる知識の䞭に存圚するかどうかを探す。

Watsonは、問題文から問題のカテゎリや手がかりを芋぀け、問題文を解析しお答えの候補を芋぀け出す。そしお、候補の答えの確からしさの蚌拠を探し、それぞれの候補のスコアを蚈算する。Wikipedia、ニュヌス、聖曞、歌詞などから抜出された知識はメモリに栌玍されおおり、蚌拠さがしは2880個のPOWER7コアで䞊列に実行する (出兞:Cool Chips 16における金山氏の講挔資料)

しかし、これは䞀筋瞄では行かない。