もっともらしい嘘をつく生成AI。AIが事実に基づかない情報を生成する現象は、幻覚を意味する「ハルシネーション」という言葉で表現される。OpenAIの「ChatGPT」やGoogleの「Gemini」といった生成AIは日進月歩で進化を続けているが、ハルシネーションによるリスクの不安で、本格的な活用に二の足を踏んでいる人は少なくないだろう。
厳密に言えば、ハルシネーションを起こしてしまうのは、生成AIを実現する大規模言語モデル(LLM)だ。インターネットなどから収集した大量のデータから学習したLLMは、そのデータ内の偏った情報や誤った情報も蓄えている。結果としてハルシネーションが発生してしまうことがある。言語モデルは、ある単語に対して次に続く確率が高い単語を予測しているため、「正しい情報」を常に認識して出力しているわけではない。
またLLMは、必ず同じ結果が出るとは限らず「冪(べき)等性がない」といった課題も抱えている。なぜ、そのようなことが起こってしまうのか。生成AI(MicrosoftのCopilot)に直接問うてみると、「私のアルゴリズムには、多様性と創造性を提供するためのランダム性が含まれています。それは私の設計の一部であり、ユーザーに対して最適な結果を提供するためのものです」と弁解された。
LLMが抱えるこれらの課題が、研究開発から商用化への進展を阻む壁となっていることは否めない。虚偽情報を利用するリスクは無視することができない。
しかし、LLMが持つ欠点を補うことができる昔ながらの技術があるという。
「LLMと『LLD』を融合することで、膨大な言語データから、再現性高く価値を生み出すことができる。LLDは、LLMのハルシネーションを抑制できる技術だ」--。
こう語るのは、20年以上の歴史を持つ徳島大学発ベンチャー 言語理解研究所のAIコンサルタント兼セールスマネージャーの尾花政篤氏。確率的に情報を出力するLLMではなく“知識を持つ"LLDとは、いったいどのような技術なのだろうか。詳しく話を聞いた。
広辞苑の72倍…大規模言語知識データベースとは?
言語理解研究所は、徳島大学発ベンチャーとして2002年に設立した。徳島大学で1983年から自然言語理解の研究をしている名誉教授の青江順一氏が創業し、意図を理解する対話型のAIの開発や(2008年)、文章の生成・要約を行うソリューションの開発(2015年)など、言語処理のあらゆる分野に長年取り組んできた。2023年6月に名刺管理サービスなどを手掛けるSansanの連結子会社となり、Sansanグループへ参画した。
自然言語とは、人間がコミュニケーションのために使用する言語のことだ。日本語や英語は自然言語にあたる。一方で、コンピュータのプログラミングに使われる言語は形式言語と呼ばれ、「目的が限定され、その目的に沿って構文や意味が明確」な言語だ。
これに対し自然言語の規則は曖昧だ。幅広い表現が可能である一方、非常に多くの例外が許容されている。そのため、コンピュータで処理するには難易度が高い。
自然言語をその曖昧性も考慮しながら、計算機を使って処理することを「自然言語処理(NLP)」と呼ぶ。そして、「明に書かれていること(字面に書かれていること)」だけでなく、「暗に示されていること」を理解する技術は「自然言語理解(NLU)」と呼ばれる。
言語理解研究所は、その社名の通り、自然言語理解の技術に強みを持つ。計算機が言外の意図を理解し、処理できる技術を開発している。
その要となるのが、同社が「大規模言語知識データベース(Large Language Knowledge Database:LLD)」と呼ぶデータベースだ。同社は、新語とその概念分類、概念共起への意図・感情タグ付けのデータベースを20年以上更新し続けている。
「一世代前の技術であるLLDの原理は単純だ。単語の意味に加え、こんな言葉がきたらこう返して、この言葉とその言葉を組み合わせるとこういう意味になるといったデータを、人間が1つずつ登録している。毎日のように新語や概念の分類を追加し、登録している言語は1800万語を超え、広辞苑の72倍ほどのボリュームになっている」と尾花氏は説明する。
データベースの内容が常時更新され、知識はいつも「新鮮な」状態に保たれているというわけだ。
各単語に“概念”を、「言葉は生き物」
LLDは、大きく分けて「単語概念知識データベース」と「意味共起知識データベース」の2つのデータベースから構成されている。
単語概念知識データベースは、各単語に対して丁寧に、1000種類以上の品詞や、単語の間違いと理由を登録する正誤情報、同じ意味の表記ゆれなどを事細かく登録している。単語の名称変更の履歴も登録し、また同義語や類義語を漏れなく登録することで「どの概念に分類されるかを徹底的に決めている」(尾花氏)という。
一方の、意味共起知識データベースでは、概念と概念が結びついた時、どのような意図や感情が付与されるかをラベル付けしている。「言葉は生き物なので、時代が変わると言葉の意味も変わる。『やばい』という言葉はポジティブな意味にもなるし、ネガティブな意味にもなる。概念を理解させることで、文章の構造化と意味を理解させている」と、尾花氏は説明する。
そしてLLDを用いた「形態素解析」と「格構造解析」により、フレーズの関係と意味理解や主語補完が可能になっているという。
そして同社は、このLLDに蓄えられた知識を使って文章を処理するプログラム「言語理解エンジン」を開発し、企業向けに提供している。対話エンジンや、文章生成エンジン、不適切表現エンジンなど、処理の目的と知識の種類に応じた各種の言語理解エンジンを手掛けている。
日本経済新聞社、決算記事をAIが数秒で生成
日本経済新聞社は、言語理解研究所のLLDを活用している企業の1社だ。自然言語の意味を理解するAI技術に強みを持つ同社のエンジンを活用し、企業の決算発表の内容をAIに要約させた記事を発信している。
約4000社ある日本国内の上場企業が発表する決算データをもとに、発表後数秒~数十秒でAIが記事原稿を自動で生成している。配信するまでは完全に自動化し、人によるチェックや修正などは一切行っていないという。「記者が決算情報をどのように読み、記事にするか」をAIに学習させた。
企業の開示した資料をもとに、要点を抽出し、日経新聞の所定の表現に合わせて文章を作成している。同社は表示の仕方やAIの性能などを適宜見直し、今後も改善を続けていく方針だ。
2023年6月に言語理解研究所をグループ会社化したSansanも、言語理解研究所のLLDを活用したサービスを展開している。
同社が手掛ける契約データベース「Contract One(コントラクトワン)」では、関連する契約を自動でひも付ける「契約ツリー」機能や、契約の有効性を自動で判定する「契約状況判定」機能が備わっているが、これは自然言語処理の技術の上で成り立っている機能だ。
契約書は、法律専門用語など独特な表現が使われるほか、特定のフォーマットがないためデータ化が難しい情報の1つだ。AIと人力を組み合わせたSansan独自のデータ化技術と、言語理解研究所の成果を組み合わせることで、契約書に記載された項目を正確に識別しデータ化することを実現しているという。
「ほかにもテレビ東京やリクルートなど、正確性が必要な経済分野中心に本番提供を数多く実現している」と尾花氏は胸を張る。
LLDはLLMの欠点を補うことはできるか?
知識を持つLLDという技術は、ハルシネーションといったLLMの欠点を補うことはできるのだろうか。
「内容が誤っていたとしても自然な文章を生成してしまうLLMを、自然言語を理解するLLDと組み合わせて活用することで、研究開発や実証実験の段階から、商用化の段階へと進むことができるはず。これが現状の最適解だ」と尾花氏は持論を述べた。
「企業が社内向けに自社LLMを構築したり自社サービスにAIを組み込もうとしたりする動きは盛んだが、絶対に生成を間違ってはいけない領域や業界もある。ビジネスの世界において、何か問題や間違いが生じたときに、説明責任を果たせること、改善できること、この2つは絶対に必要なことだ。LLDによる言語処理は、なぜ間違ったかということを突き止めることができ、そして新たにデータを追加していくことで改善もできる」とし、「LLMとLLDの融合で、膨大な言語データから、再現性高く価値を生み出すことができるだろう」と自信を見せた。
今回の取材の後、言い訳をしていたCopilotに「ほかの言語処理技術と組み合わせて利用することで、ハルシネーションを抑制することはできるか」と聞いてみると、「有効な手段ですが、完全にハルシネーションを排除することは現在の技術では難しいです。そのため、AIの出力は常に慎重に評価し、必要に応じて人間の専門家がレビューすることが推奨されています」と保険をかけられた。
AIに仕事を丸投げできるような時代は、まだまだ来なそうだ。