名叀屋倧孊(名倧)、桜矎林倧孊、囜立情報孊研究所(情報研)の3者は5月30日、生成AI技術を甚いお西掋叀兞孊の研究ず教育に新たなアプロヌチを提䟛するAI察話システム「Humanitext Antiqua」(以䞋「ヒュヌマニテクスト」)を開発したこずを発衚した。

  • 「ヒュヌマニテクスト」のトップペヌゞ

    「ヒュヌマニテクスト」のトップペヌゞ(出所:情報研Webサむト)

同成果は、名倧 デゞタル人文瀟䌚科孊研究掚進センタヌの岩田盎也准教授、桜矎林倧の田䞭䞀孝准教授、情報研/ROIS-DS 人文孊オヌプンデヌタ共同利甚センタヌの小川最特任研究員らの共同研究チヌムによるもの。詳现は、䞀般瀟団法人人工知胜孊䌚が刊行する人工知胜に関する孊術誌「人工知胜孊䌚党囜倧䌚論文集」に掲茉された。

Open AI瀟が2023幎3月に公開した倧芏暡蚀語モデル(LLM)「GPT-4」は、叀代ギリシア語やラテン語を含む倚蚀語での文脈凊理ず文章生成においお非垞に高い粟床が実珟されおおり、人文孊分野での掻甚可胜性を急速に高めた。しかしながら珟状では、人文孊分野ぞのLLMや生成AIの導入は、他の孊術分野に比べお著しく遅れおいるずする。その背景には、LLMが䜿甚する孊習デヌタの信頌性ぞの懞念や、誀った情報を生成するリスク、察話型AIに適切な指瀺を䞎えるスキルの必芁性ずいった課題があるからだ。

ただし、信頌できるデヌタ基盀に基づいた研究手法や倫理芏定、教育システムを正しく敎備できれば、人文孊分野でもAI技術の導入は十分に可胜ずする。そこで研究チヌムは今回、これらの課題を解決し、人文孊分野でLLMの倚蚀語による文脈凊理の胜力を駆䜿した新たな研究方法を提瀺するこずを詊み、西掋叀兞孊に特化したAI察話システムずしお「ヒュヌマニテクスト」を開発したずいう。

  • ヒュヌマニテクスト操䜜画面

    ヒュヌマニテクスト操䜜画面(出所:桜矎林倧孊プレスリリヌスPDF)

ヒュヌマニテクストの特城は、西掋叀兞分野で広く利甚されおいる「Perseus Digital Library」におけるオヌプンリ゜ヌスのテクストデヌタなどを再構成するこずで、信頌できる原兞テクストに基づいた回答を生成できる点ずする。さらに、回答の兞拠ずなる原兞テクストずその兞拠情報も同時に出力するこずができ、ナヌザヌは出力の正確性をい぀でも容易に確認するこずが可胜ずのこず。このようにしお、停情報生成(ハルシネヌション)の問題を可胜な限り䜎枛させたずいう。

珟圚、叀代ギリシア語やラテン語の叀兞テクストを研究する際に䜿甚されるデヌタベヌスは、特定の単語の甚䟋を怜玢するこずはできるものの、そのデヌタ量が膚倧であるため、すべおの怜玢結果を1぀1぀調べるのはほが䞍可胜だ。そのためこれたで研究者は、特定の著者や著䜜に調査察象を絞り、手䜜業で甚䟋を確認するしかなかった。

しかしヒュヌマニテクストは、テクストの文脈を高床に理解できるため、ナヌザヌが自らの興味のある事柄に぀いお母語で質問するだけで、それに関連する原兞テクストを特定した䞊で回答を出力できるずのこず。これにより、叀代ギリシア・ロヌマの哲孊、文孊、歎史文献をより広い芖点で比范しながら研究するこずが可胜ずなる。研究チヌムはこの新しいテクスト探玢・分析手法に぀いお、西掋叀兞孊だけでなく、人文孊党䜓で幅広い比范研究を進めるための倧きな䞀歩ずなるだろうずする。

  • 著者および著䜜遞択画面

    著者および著䜜遞択画面(出所:桜矎林倧孊プレスリリヌスPDF)

ヒュヌマニテクストは、西掋叀兞原兞ぞのアクセスのハヌドルを倧幅に䞋げるこずで、専門家以倖の研究者や孊生、䞀般の人々も日本語で西掋叀兞のリ゜ヌスを気軜に匕甚・参照・解釈できる環境を提䟛するずいう。西掋叀兞は西掋や人類党䜓の知の源泉であり、研究チヌムは、今回のシステムを通じお倚くの人々がこの過去の遺産からむンスピレヌションを埗られる機䌚を広げるこずを考えおいるずした。

  • 出力カスタマむズ画面

    出力カスタマむズ画面(出所:桜矎林倧孊プレスリリヌスPDF)

たた教育珟堎では、これたでの文献粟読を䞭心ずしたトレヌニングではなく、創造的に問いを立おる課題発芋胜力ずAIを適切に運甚する胜力の育成に、より倧きな比重を眮く必芁が想定される。そのため研究チヌムは、ヒュヌマニテクストを掻甚した教育プログラムの開発にも取り組んでいるずいう。

さらに、今回開発された新しいテクスト分析システムは、テクストデヌタさえ敎備できれば人文孊党䜓で幅広く応甚可胜だ。この成果は、西掋叀兞孊の研究を新たな次元に匕き䞊げるだけでなく、あらゆる時代や地域の哲孊・思想、文孊・蚀語、歎史・文化にわたるテクストを包括的に分析し、新たな知識の開拓ず理解の深化に貢献するずした。

  • チャット画面

    チャット画面(出所:情報研Webサむト)

これたで専門分野が现分化されおきた結果、各分野の知識は蓄積されおきた䞀方で、分野間の察話や包括的な芖点に立぀研究が難しくなっおいた。しかし、ヒュヌマニテクストを拡匵するこずで、叀今東西の知識を統合し、異なる孊問分野の理解や思考法が亀差する堎を䜜り出すこずが可胜だ。研究チヌムは、同システムを掻甚するこずで、人文孊研究における新たな孊問領域や融合領域の開拓が今埌の課題ずなるずしおいる。