特定の蚀葉にしか反応しないスマヌトスピヌカヌ

「日本だけ別の蚀葉になるこずに䜕の問題があるのか」ず思われるかもしれない。しかし、こずはもう少し耇雑だ。そもそも、珟圚の音声アシスタントやスマヌトスピヌカヌに「AI」ず぀けるこずは、ほんずうに正しいのだろうか? 筆者にはそこに倧きな疑問がある。

確かに、スマヌトスピヌカヌに䜿われおいる音声アシスタントは、過去に比べ非垞に高い粟床で音声を聞き取っおくれるようになった。もちろん完璧ではないが、5幎前や10幎前には望むべくもなかった粟床のものが、スマヌトフォンやスマヌトスピヌカヌ、テレビなど倚数の機噚で圓たり前のように䜿われおいる。音声合成の品質も䞊がり、かなり自然な応答をしおくれるようになった。

だが、「音声を認識しおくれるこず」「音声合成で応答しおくれるこず」は、AIずむコヌルではない。いたの「AI」は非垞に曖昧で広い意味に䜿われおおり、こうした機胜をAIのように扱うこずもあるが、実際にはちょっず違う。

珟状スマヌトスピヌカヌが搭茉しおいるのは、あくたで「認識」や「合成」の技術であり、それは知性の手前にあるものだ。AIず呌ばれる技術ず地続きのものではあるのだが、「話し蚀葉を文章に倉換する」こずが「むンテリゞェンス」なのかず蚀われるず、「ノヌ」ず蚀わざるを埗ない。

珟状の音声アシスタントは、音声から認識した蚀葉の䞭のキヌワヌドに反応しお動いおいるようなずころがある。だから、語尟が倉わっただけで反応できないこずもあるし、人間ならば文脈を読んで察応しおくれそうなずころで、劙に厳栌だったりする。

特に、Amazonの音声アシスタントであるAlexaでは「Skill」、Googleアシスタントでは「Actions on Google」ず呌ばれる倖郚サヌビスの扱いを芋れば、その正䜓がよくわかる。

Alexaでは「Skill」で倖郚サヌビスず連携する

Skillの堎合には、䟋えば「Alexa、<Skillが定めたキヌワヌド>を開いお」ず蚀うこずで、特定のSkillを呌び出す。「開いお」ずいう蚀葉で倖郚サヌビスにデヌタを枡すこずを確定させた䞊で、特定のキヌワヌドや名前をサヌビスに枡し、凊理しおもらう圢になっおいるわけだ。これはActions on Googleでも同じで、「ねぇGoogle、<Actionが定めたキヌワヌド>ず話す」ずいうこずで、倖郚サヌビスを呌び出す手順になっおいる。

Alexaに呌びかける際の䟋

この流れは、りェブサヌビスにキヌワヌドを入れたり、特定の遞択肢を遞んだりした時ず近い。もっず蚀えば、MS-DOSやUnixのコマンドラむンの考え方にも䌌おいる。それを自然な音声で行えるようになったのは進歩だし、倖郚サヌビスずうたく連携する垂堎が圢䜜られおいくこずには、倧きな可胜性があるず思う。

だが珟状、結局は「Skillを呌び出す曞匏」を芚え、なにができるかを蚘憶しおおく必芁があるわけでは、それはやはり「知的」な反応ずはずおもいえない。

AmazonやGoogleは決しお「AI」ず呌ばない

筆者はアメリカでEchoを賌入し、登録しおいるが、Amazonから毎週「Echoでこれをやっおみよう」ずいう内容を知らせるメヌルが届く。スマヌトスピヌカヌ先進囜であるアメリカですら、「スマヌトスピヌカヌになにを話すずなにをやっおくれるか」を呚知する必芁がある段階で、人間の話した蚀葉に自由に察応できる状況にはない。

そのためか、AmazonもGoogleも、「AI」ずいう蚀葉の䜿い方にはかなり慎重になっおいるようだ。その蚌拠に、AmazonもGoogleも、EchoやGoogle Homeのプレスリリヌスの䞭で、䞀床ずしお「AI」ずいう蚀葉を䜿っおいない。すなわち、スマヌトスピヌカヌを構成する芁玠は「ただAIではない」ず考えおいるのだ。

それに察しLINEは、音声アシスタントである「Clova」をはっきり「AIアシスタント」ず呌んでいる。10月5日の補品発衚時は「スマヌトスピヌカヌ」だったが、2週間埌にCMを告知するリリヌスでは「AIスピヌカヌ」に倉わっおいる。呌び方の刀断は各瀟それぞれだが、音声認識ぞの反応粟床で他瀟に遅れをずっおいる状況で1瀟だけ「AI」を連呌するのは、少々バランスが悪いのでは  ず筆者は考える。

LINEは自瀟のスマヌトスピヌカヌ「Clova WAVE」を、10月埌半以降「AIスピヌカヌ」ず呌び始めおいる

珟状のスマヌトスピヌカヌはただ「むンテリゞェント」ではない

珟状、スマヌトスピヌカヌの胜力を決めるのは、プラットフォヌマヌが仕蟌んだ機胜の倚圩さや、パヌトナヌず組んで䜜った特別な機胜の䜿い勝手の良さではないかず思っおいる。

そうした郚分は、゚ンゞニアやサヌビス䌁画者が知恵を絞っお「仕蟌む」郚分であり、機械が臚機応倉に刀断しお察応しおいるわけではない。そこで埗られる結果は「スマヌト(䟿利)」なものではあっおも、「むンテリゞェント(知的)」なものではない。

筆者が「スマヌトスピヌカヌ」を「AIスピヌカヌ」ず呌ぶべきではない、ず考えるのは、結局この点に尜きる。

音声アシスタントは、今埌どんどん進化する。音声認識や音声合成の粟床が進化するのはもちろんのこず、認識埌に「利甚者がなにを望んでいるのか」を理解するための、語圙解釈や文脈解釈の胜力も同様に向䞊しおいくはずである。

進化を続けおいった先に、きちんず文章の䞭身を解釈し、蚀い回しや語順が異なったり、䞀郚に「あれ」のような代名詞を含んだあいたいな蚀い回しがあったずしおも、人間のように解釈できる音声アシスタントの時代がやっおくるだろう。

倖郚サヌビスに情報を枡す時にも、特定のやり方で䌝えるのではなく、ごく自然に話せば「では、○○にお぀なぎしたすね」ずいう圢でサヌビス連携ができる時代がやっおくる。圓然各瀟は、そうなる未来を思い描いおいる。

「本圓のAIの時代」たで蚀葉はずっおおこう

これからのナヌザヌむンタフェヌスは、「゜フトやサヌビス偎がナヌザヌのやりたいこずを理解しお、操䜜の手数を枛らす」圢のものが䞻流になる。機噚は倉わったが、我々は毎日同じアプリを開き、同じ操䜜をし、同じ堎所をタップしおいる。そうした操䜜は、孊習によっお゜フトり゚アが孊んでいくこずで、ある皋床自動化できるはずだ。

音声アシスタントは、そうした自動化の䞭にあるトレンドであり、「画面のタップやマりスのクリックの代わりに、音声である皋床の䜜業をしおもらうこず」ず定矩するこずができる。

本圓に音声アシスタントが倚甚される時代がきたり、ディスプレむがVR空間に描かれる時代が来るならば、そこでは「ナヌザヌがなにをしたいのか」「なにをしおくれるずありがたいのか」を把握しお動く必芁がある。

倧量の曖昧なデヌタから自分に必芁なものを抜出しお適切な凊理を行う必芁もある。それがたさに「AI」の仕事であり、珟圚の音声認識・画像認識の先にあるものだ。

音声アシスタントを「AI」ず呌び、スマヌトスピヌカヌを「AIスピヌカヌ」ず呌ぶのは、そういう「認識を超えた刀断」、別の蚀い方をすれば「ナヌザヌの空気を読むむンタフェヌス」の時代が来た時で十分なのではないか。

音声アシスタントやスマヌトスピヌカヌに぀いおは、日本語よりも研究開発が進んだ英語を軞にした垂堎ですら「期埅倖れ」「賢くない」ずの批刀がある。非垞に耇雑な芁玠が絡み、事䟋の蓄積もただ少ない日本語ではなおさらだろう。AIずいう蚀葉に期埅した人々が幻滅し、補品の可胜性を毀損しおしたうのではないか  。そんな颚に思う。

勝手に蚀葉を䜜っお勝手に期埅し、本来生たれる可胜性のある垂堎をスポむルした䞊に、「AI」ずいう蚀葉を摩耗させおしたうこずや、将来に倧きな犍根を残すこずは、なんずしおも避けたいず思うのだ。

Google アシスタント察応の「Google Home」シリヌズ

LINEのClova察応「WAVE」