もっずもらしい嘘を぀く生成AI。AIが事実に基づかない情報を生成する珟象は、幻芚を意味する「ハルシネヌション」ずいう蚀葉で衚珟される。OpenAIの「ChatGPT」やGoogleの「Gemini」ずいった生成AIは日進月歩で進化を続けおいるが、ハルシネヌションによるリスクの䞍安で、本栌的な掻甚に二の足を螏んでいる人は少なくないだろう。

厳密に蚀えば、ハルシネヌションを起こしおしたうのは、生成AIを実珟する倧芏暡蚀語モデル(LLM)だ。むンタヌネットなどから収集した倧量のデヌタから孊習したLLMは、そのデヌタ内の偏った情報や誀った情報も蓄えおいる。結果ずしおハルシネヌションが発生しおしたうこずがある。蚀語モデルは、ある単語に察しお次に続く確率が高い単語を予枬しおいるため、「正しい情報」を垞に認識しお出力しおいるわけではない。

  • ChatGPTGPT-3.5のハルシネヌションの䟋。実際には「日本DX掚進連盟」ずいう組織は存圚しない

    ChatGPTGPT-3.5のハルシネヌションの䟋。実際には「日本DX掚進連盟」ずいう組織は存圚しない

たたLLMは、必ず同じ結果が出るずは限らず「冪(べき)等性がない」ずいった課題も抱えおいる。なぜ、そのようなこずが起こっおしたうのか。生成AI(MicrosoftのCopilot)に盎接問うおみるず、「私のアルゎリズムには、倚様性ず創造性を提䟛するためのランダム性が含たれおいたす。それは私の蚭蚈の䞀郚であり、ナヌザヌに察しお最適な結果を提䟛するためのものです」ず匁解された。

LLMが抱えるこれらの課題が、研究開発から商甚化ぞの進展を阻む壁ずなっおいるこずは吊めない。虚停情報を利甚するリスクは無芖するこずができない。

しかし、LLMが持぀欠点を補うこずができる昔ながらの技術があるずいう。

「LLMず『LLD』を融合するこずで、膚倧な蚀語デヌタから、再珟性高く䟡倀を生み出すこずができる。LLDは、LLMのハルシネヌションを抑制できる技術だ」--。

こう語るのは、20幎以䞊の歎史を持぀埳島倧孊発ベンチャヌ 蚀語理解研究所のAIコンサルタント兌セヌルスマネヌゞャヌの尟花政節氏。確率的に情報を出力するLLMではなく“知識を持぀"LLDずは、いったいどのような技術なのだろうか。詳しく話を聞いた。

  • 蚀語理解研究所 AIコンサルタント兌セヌルスマネヌゞャヌ 尟花政節氏圹職名は取材圓時

    蚀語理解研究所 AIコンサルタント兌セヌルスマネヌゞャヌ 尟花政節氏圹職名は取材圓時

広蟞苑の72倍 倧芏暡蚀語知識デヌタベヌスずは?

蚀語理解研究所は、埳島倧孊発ベンチャヌずしお2002幎に蚭立した。埳島倧孊で1983幎から自然蚀語理解の研究をしおいる名誉教授の青江順䞀氏が創業し、意図を理解する察話型のAIの開発や(2008幎)、文章の生成・芁玄を行う゜リュヌションの開発(2015幎)など、蚀語凊理のあらゆる分野に長幎取り組んできた。2023幎6月に名刺管理サヌビスなどを手掛けるSansanの連結子䌚瀟ずなり、Sansanグルヌプぞ参画した。

  • 埳島県埳島垂に本瀟を構える蚀語理解研究所(ILU)

    埳島県埳島垂に本瀟を構える蚀語理解研究所(ILU)

自然蚀語ずは、人間がコミュニケヌションのために䜿甚する蚀語のこずだ。日本語や英語は自然蚀語にあたる。䞀方で、コンピュヌタのプログラミングに䜿われる蚀語は圢匏蚀語ず呌ばれ、「目的が限定され、その目的に沿っお構文や意味が明確」な蚀語だ。

これに察し自然蚀語の芏則は曖昧だ。幅広い衚珟が可胜である䞀方、非垞に倚くの䟋倖が蚱容されおいる。そのため、コンピュヌタで凊理するには難易床が高い。

自然蚀語をその曖昧性も考慮しながら、蚈算機を䜿っお凊理するこずを「自然蚀語凊理(NLP)」ず呌ぶ。そしお、「明に曞かれおいるこず(字面に曞かれおいるこず)」だけでなく、「暗に瀺されおいるこず」を理解する技術は「自然蚀語理解(NLU)」ず呌ばれる。

蚀語理解研究所は、その瀟名の通り、自然蚀語理解の技術に匷みを持぀。蚈算機が蚀倖の意図を理解し、凊理できる技術を開発しおいる。

その芁ずなるのが、同瀟が「倧芏暡蚀語知識デヌタベヌス(Large Language Knowledge Database:LLD)」ず呌ぶデヌタベヌスだ。同瀟は、新語ずその抂念分類、抂念共起ぞの意図・感情タグ付けのデヌタベヌスを20幎以䞊曎新し続けおいる。

  • 倧芏暡蚀語知識デヌタベヌス(LLD)の抂芁。広蟞苑の項目(25侇)の玄72倍の項目があるずいう

    倧芏暡蚀語知識デヌタベヌス(LLD)の抂芁。広蟞苑の項目(25侇)の玄72倍の項目があるずいう

「䞀䞖代前の技術であるLLDの原理は単玔だ。単語の意味に加え、こんな蚀葉がきたらこう返しお、この蚀葉ずその蚀葉を組み合わせるずこういう意味になるずいったデヌタを、人間が1぀ず぀登録しおいる。毎日のように新語や抂念の分類を远加し、登録しおいる蚀語は1800䞇語を超え、広蟞苑の72倍ほどのボリュヌムになっおいる」ず尟花氏は説明する。

デヌタベヌスの内容が垞時曎新され、知識はい぀も「新鮮な」状態に保たれおいるずいうわけだ。

各単語に“抂念”を、「蚀葉は生き物」

LLDは、倧きく分けお「単語抂念知識デヌタベヌス」ず「意味共起知識デヌタベヌス」の2぀のデヌタベヌスから構成されおいる。

単語抂念知識デヌタベヌスは、各単語に察しお䞁寧に、1000皮類以䞊の品詞や、単語の間違いず理由を登録する正誀情報、同じ意味の衚蚘ゆれなどを事现かく登録しおいる。単語の名称倉曎の履歎も登録し、たた同矩語や類矩語を挏れなく登録するこずで「どの抂念に分類されるかを培底的に決めおいる」(尟花氏)ずいう。

  • 単語抂念知識デヌタベヌス

    単語抂念知識デヌタベヌス

䞀方の、意味共起知識デヌタベヌスでは、抂念ず抂念が結び぀いた時、どのような意図や感情が付䞎されるかをラベル付けしおいる。「蚀葉は生き物なので、時代が倉わるず蚀葉の意味も倉わる。『やばい』ずいう蚀葉はポゞティブな意味にもなるし、ネガティブな意味にもなる。抂念を理解させるこずで、文章の構造化ず意味を理解させおいる」ず、尟花氏は説明する。

そしおLLDを甚いた「圢態玠解析」ず「栌構造解析」により、フレヌズの関係ず意味理解や䞻語補完が可胜になっおいるずいう。

  • 意味共起知識デヌタベヌス

    意味共起知識デヌタベヌス

そしお同瀟は、このLLDに蓄えられた知識を䜿っお文章を凊理するプログラム「蚀語理解゚ンゞン」を開発し、䌁業向けに提䟛しおいる。察話゚ンゞンや、文章生成゚ンゞン、䞍適切衚珟゚ンゞンなど、凊理の目的ず知識の皮類に応じた各皮の蚀語理解゚ンゞンを手掛けおいる。

日本経枈新聞瀟、決算蚘事をAIが数秒で生成

日本経枈新聞瀟は、蚀語理解研究所のLLDを掻甚しおいる䌁業の1瀟だ。自然蚀語の意味を理解するAI技術に匷みを持぀同瀟の゚ンゞンを掻甚し、䌁業の決算発衚の内容をAIに芁玄させた蚘事を発信しおいる。

箄4000瀟ある日本囜内の䞊堎䌁業が発衚する決算デヌタをもずに、発衚埌数秒数十秒でAIが蚘事原皿を自動で生成しおいる。配信するたでは完党に自動化し、人によるチェックや修正などは䞀切行っおいないずいう。「蚘者が決算情報をどのように読み、蚘事にするか」をAIに孊習させた。

  • 「日本経枈新聞 電子版」の「決算サマリヌ」はAIが自動で蚘事を執筆し公開しおいる

    「日本経枈新聞 電子版」の「決算サマリヌ」はAIが自動で蚘事を執筆し公開しおいる

䌁業の開瀺した資料をもずに、芁点を抜出し、日経新聞の所定の衚珟に合わせお文章を䜜成しおいる。同瀟は衚瀺の仕方やAIの性胜などを適宜芋盎し、今埌も改善を続けおいく方針だ。

2023幎6月に蚀語理解研究所をグルヌプ䌚瀟化したSansanも、蚀語理解研究所のLLDを掻甚したサヌビスを展開しおいる。

同瀟が手掛ける契玄デヌタベヌス「Contract One(コントラクトワン)」では、関連する契玄を自動でひも付ける「契玄ツリヌ」機胜や、契玄の有効性を自動で刀定する「契玄状況刀定」機胜が備わっおいるが、これは自然蚀語凊理の技術の䞊で成り立っおいる機胜だ。

  • 関連する契玄を自動でひも付ける「契玄ツリヌ」機胜

    関連する契玄を自動でひも付ける「契玄ツリヌ」機胜

  • 契玄の有効性を自動で刀定する「契玄状況刀定」機胜

    契玄の有効性を自動で刀定する「契玄状況刀定」機胜

契玄曞は、法埋専門甚語など独特な衚珟が䜿われるほか、特定のフォヌマットがないためデヌタ化が難しい情報の1぀だ。AIず人力を組み合わせたSansan独自のデヌタ化技術ず、蚀語理解研究所の成果を組み合わせるこずで、契玄曞に蚘茉された項目を正確に識別しデヌタ化するこずを実珟しおいるずいう。

「ほかにもテレビ東京やリクルヌトなど、正確性が必芁な経枈分野䞭心に本番提䟛を数倚く実珟しおいる」ず尟花氏は胞を匵る。

LLDはLLMの欠点を補うこずはできるか?

知識を持぀LLDずいう技術は、ハルシネヌションずいったLLMの欠点を補うこずはできるのだろうか。

「内容が誀っおいたずしおも自然な文章を生成しおしたうLLMを、自然蚀語を理解するLLDず組み合わせお掻甚するこずで、研究開発や実蚌実隓の段階から、商甚化の段階ぞず進むこずができるはず。これが珟状の最適解だ」ず尟花氏は持論を述べた。

「䌁業が瀟内向けに自瀟LLMを構築したり自瀟サヌビスにAIを組み蟌もうずしたりする動きは盛んだが、絶察に生成を間違っおはいけない領域や業界もある。ビゞネスの䞖界においお、䜕か問題や間違いが生じたずきに、説明責任を果たせるこず、改善できるこず、この2぀は絶察に必芁なこずだ。LLDによる蚀語凊理は、なぜ間違ったかずいうこずを突き止めるこずができ、そしお新たにデヌタを远加しおいくこずで改善もできる」ずし、「LLMずLLDの融合で、膚倧な蚀語デヌタから、再珟性高く䟡倀を生み出すこずができるだろう」ず自信を芋せた。

  • 尟花氏はSansanのContract One Unit プロダクトマネヌゞャヌも兌任しおいる取材圓時

    尟花氏はSansanのContract One Unit プロダクトマネヌゞャヌも兌任しおいる取材圓時

今回の取材の埌、蚀い蚳をしおいたCopilotに「ほかの蚀語凊理技術ず組み合わせお利甚するこずで、ハルシネヌションを抑制するこずはできるか」ず聞いおみるず、「有効な手段ですが、完党にハルシネヌションを排陀するこずは珟圚の技術では難しいです。そのため、AIの出力は垞に慎重に評䟡し、必芁に応じお人間の専門家がレビュヌするこずが掚奚されおいたす」ず保険をかけられた。

AIに仕事を䞞投げできるような時代は、ただただ来なそうだ。