最終回である今回は、自然蚀語凊理の代衚的な䟋ず動向、AIを䜿った今埌の発展に぀いお解説しおいきたす。

最近の自然蚀語凊理動向

AIで甚いる自然蚀語凊理の方法は色々ありたすが、単語や文曞をコンピュヌタで凊理するためには、䜕らかの圢で数倀情報に倉えたす。数倀化するこずにより、単語や文曞の関係や特城を捉えるこずができるようになり、AIによる解析が行えるようになりたす。

自然蚀語凊理で改めお泚目されおいるのがベクトル化です。ベクトル化ずは、自然蚀語を「耇数の数倀の組」で衚すこずで、文曞や単語の関係を衚したり、䜍眮情報に芋立おたりするこずができたす。

ベクトル化の方法でよく知られおいるものに、Bag of Wordsず分散衚珟がありたす。どんなものか簡単に芋おいきたしょう。

  • 自然蚀語凊理×AIで䜕ができるか 最終回
  • Bag of Words

Bag of Wordsは、文曞における単語の出珟頻床を甚いお数倀化する方法です。党おの単語に察しお、文曞䞭にその単語が䜕回出珟したか、出珟した回数に着目しおいお、単語の䞊びは考慮しおいたせん。䟋ずしお、以䞋の2぀の文章を数倀化しおみたしょう。

文章1「私はハンバヌグを料理する」
文章2「圌はカレヌを料理した」

たずは、意味をも぀衚珟芁玠の最小単䜍である圢態玠で文章を解析し、「私」「圌」「は」「ハンバヌグ」「カレヌ」「を」「料理」「する」に分け、それぞれの出珟回数を数えおみたす。

以䞋の衚の倀が文章1ず文章2のBag of Wordsずなりたす。文曞䞭に存圚する単語が含たれおいる回数をそのたた倀ずしお甚いたす。

私 圌 は ハンバヌグ カレヌ を 料理 する した
文章1 1 0 1 1 0 1 1 1 0
文章2 0 1 1 0 1 1 1 0 1

2぀の文章の合蚈で芋た堎合、私1、圌1、は2、ハンバヌグ1、カレヌ1、を2、料理2、する1、した1ずなりたす。

出珟頻床が倚い単語は重芁床が高いず仮定し芋おいくず、この䞭で2回ず぀出珟する「は」「を」「料理」は重芁床が高そうです。ただ、「は」や「を」のような助詞はこれだけでは意味をなさないため、これらの文章では「料理」が特城になるず想像できたす。

実際の文曞では、より倚くの単語ず文章がありたす。単語䞀぀ず぀を1ず0で衚しお、足し合わせたり、䞊蚘のように出珟頻床を数倀で衚したりするこずで、文曞党䜓の特城をベクトル化するこずができたす。

  • 自然蚀語凊理×AIで䜕ができるか 最終回
  • 分散衚珟

Bag of Wordsが文曞䞭の単語出珟回数を元にベクトル化するのに察しお、次に玹介する分散衚珟は、単語の持぀意味的な情報をベクトル化する方法です。同じような意味や䜿われ方をする単語は同じような文脈の䞭に登堎するずの仮定や、孊習枈みのベクトル空間内で単語に座暙を䞎えるこずで、単語の関連性を数倀で衚しおいきたす。

これにより、単語同士の意味の近さを蚈算したり、単語同士の意味を足したり匕いたりするこずができるようになりたす。䟋えば、以䞋のように単語同士で蚈算するこずができたす。

「王様」「男」「女」「女王」

この蚈算匏は、「王様」ずいう単語から「男」ずいう単語の持぀抂念を匕いお「女」ずいう単語の持぀抂念を足すず「女王」ずいう単語になる、ずいうこずを意味しおいたす。

分散衚珟における「王様」ず「女王」が持぀意味の䜍眮関係のむメヌゞを぀かむため、衚圢匏にしおみるず、以䞋のようになりたす。

暩力 男性的特城 女性的特城
王様 1 1 0
女王 1 0 1

「暩力」の項目は、「王様」や「女王」が持぀抂念のむメヌゞです。このように数倀化するこずで、単語同士の蚈算などを可胜にしおいたす。

分散衚珟を甚いた手法では、最近はWord2Vecが知られおいたす。Word2Vecは「単語」の抂念䞊の䜍眮関係をベクトル化したすが「文曞」の抂念䞊の䜍眮関係を数倀化するDoc2vecずいう手法もありたす。

Bag of Wordsや分散衚珟は、文曞や単語の「近い」「遠い」ずいった距離や関連性を衚すこずで、䟋えば「類䌌床」のように数倀で比べるこずができるようになりたす。自然蚀語凊理ずしお掻甚するこずで、探しおいる文曞の発芋や、口コミの分析、アンケヌト回答の仕分けなどに䜿うこずができたす。

われわれは、文曞の解析においお独自に開発したLandscapingランドスケ―ピングずいう手法を甚いおいたす。Landscapingは、今日玹介した方法も駆䜿しながら、文曞党䜓の構成から特城を掎んで、軜い凊理で文章の類䌌性を芋぀け出せたす。

たず、文曞党䜓の䞭から単語の抜出ず品詞の特定を行い、抜出されたそれぞれの単語に぀いお目的ずなる情報に関連性があるかないか、重芁床を蚈算するずころがポむントです。次に、文曞内にある単語の重芁床を集蚈し、スコアで関連性を瀺したす。スコアが高いものほど、重芁ずなり、倧量の文曞でも優先順䜍を付けお玠早く調べるこずができたす。

  • 自然蚀語凊理×AIで䜕ができるか 最終回

自然蚀語凊理の今埌の発展

最近では、お客様の声の分析やコンプラむアンス違反チェックなどのために、コヌルセンタヌのオペレヌタヌや金融機関などの営業担圓ずお客さたの通話内容を録音し、その音声デヌタをテキストデヌタに倉換しお解析するこずも増えおきおいたす。音声蚘録は文字入力ず比べお蚘録が容易ですし、テキストデヌタだけでなく音声デヌタも掻甚できれば、より倚くのチャンスやリスクを芋぀けるこずができたす。

ただ、䞀方で課題もあり、音声認識の粟床は日々向䞊しおいるこずは事実ですが、話者の話し方の癖や方蚀、たた蚘録や通信の環境など様々な事情により、ただただ認識率は90%前埌ず蚀われおいるのが実情です。認識率95%ぐらいでも以䞋のように誀倉換が倚々芋受けられたす。

  • 自然蚀語凊理×AIで䜕ができるか 最終回

せっかく音声デヌタをテキストに倉換しおも、誀倉換が倚くお解析できないずいうこずであれば意味がないですし、解析するために誀倉換されたものを人間が目で芋お修正しおいたのでは、その䜜業に時間がかかっおしたい珟実的ではありたせん。

しかし、先述のLandscapingのように、誀倉換されたテキストであっおも、誀倉換は誀倉換のたたで解析を可胜にする技術も出おきおいたす。誀倉換を修正したテキストデヌタず誀倉換がそのたたのテキストデヌタの䞡方を解析しおみたずころ、誀倉換のたた解析しおも粟床は䞋がらないずいう結果が明らかになっおいたす。

たた、文曞党䜓の構成から特城や重芁床を掎む手法は、自然蚀語だけでなく、プログラミング蚀語のコヌド解析でもその有甚性が実蚌されおいたす。

著者玹介

FRONTEO行動情報科孊研究所
行動情報科孊に基づいたビッグデヌタ解析および人工知胜の研究開発を行っおいたす。自然蚀語凊理、機械孊習の適甚、アプリケヌション開発などを掚進し、サヌビスの運甚から埗られるナヌザヌ䜓隓を研究開発ぞずフィヌドバックするこずで、開発のサむクルを加速し、瀟䌚に圹立぀補品づくりに取り組んでいたす。