熊本大学とTOPPANは7月26日、熊本大が公益財団法人永青文庫から寄託を受けている歴史資料「細川家文書(ほそかわけもんじょ)」のうち、専門家でも解読が困難な難易度の高いくずし字で書かれた約5万枚の未解読の古文書(藩政記録)をAI-OCRを用いて短期間で解読し、約950万文字のテキストデータを生成することに成功したと発表した。

同成果は、熊本大 永青文庫研究センターの稲葉継陽センター長らと、TOPPANの共同研究チームによるもの。

  • 今回の研究により、大量のくずし字資料をAI-OCRでテキスト化し、検索可能にすることでさまざまな分野の研究などへの活用が可能になったという

    今回の研究により、大量のくずし字資料をAI-OCRでテキスト化し、検索可能にすることでさまざまな分野の研究などへの活用が可能になったという(出所:熊本大プレスリリースPDF)

古文書は、日本国内に数十億点以上残存するといわれているが、その中には現代の社会課題にも直結する災害や地域文化の記録など、防災や観光資源の創出・地域の活性化にもつながる貴重な情報が記されているものがある。しかし、古文書のほとんどは「くずし字」で書かれているため、現代人にとって判読が困難となってしまい、当時の記録・文献を活用する際の大きな障壁になっているという。

そうした中で、熊本大は、永青文庫が所有する、九州の国持大名・肥後細川家(1600~1632年小倉藩主、以降1871年まで熊本藩主)に伝来した歴史資料や美術品のうち、約5万7000点、約288万枚が寄託されている。寄託資料の中でも、今回解読された「奉行所日帳」をはじめとした、17世紀初期から後期にかけて奉行所に蓄積された大量の統治記録は、当該時期の九州地域の社会状況を知る上でも極めて貴重な歴史資料だという。同大学では2010年に永青文庫研究センターを設置し、永青文庫から寄託されている歴史資料や書籍の基礎研究を推進中だ。

一方のTOPPANは、2015年より大学共同利用機関法人 人間文化研究機構 国文学研究資料館との共同研究をスタート。以後、多数の研究機関など共に、くずし字AI-OCR技術の開発・実証を重ねてきた。2017年からは古文書解読とくずし字資料の利活用サービス「ふみのは」として、さまざまなくずし字解読ソリューションを提供中だ。

このような背景のもと、2021年から両者が開始したのが、文献資料の新たな大規模調査手法の検討と、永青文庫所蔵資料に対するAI-OCRの精度向上の取り組み。今回、約5万枚・約950万文字を全文テキスト化し、大規模な古文書解読のためのシステム構築を行うと共に、地域における災害記録をはじめとした網羅的な調査を開始することにしたという。

くずし字AI-OCRによる解読と検索システムが一体化することで、これまでくずし字の解読が障壁となっていた古文書などの一次史料への網羅的調査が容易になるとする。検索により発見された資料を研究者が精査し、先行研究や定説との照合を行うことで、新たな発見や、歴史学をはじめとしたさまざまな分野への一次史料の活用を促進するとした。

  • くずし字文献資料の大規模調査のフロー図

    くずし字文献資料の大規模調査のフロー図(出所:熊本大プレスリリースPDF)

今回解読された「細川家文書」とは、江戸時代の細川家に伝来した5万点以上、約288万枚の歴史資料群のことを指し、主に「奉行所日帳(ぶぎょうしょにっちょう)」、「奉書(ほうしょ)」、「御国御書案文(おくにごしょあんもん)」、「方々(かたがた)への状控(じょうひかえ)」の4種類で構成される。現在は公益財団法人永青文庫が所有し、その大半が熊本大学に寄託されている。

  • 「奉行所日帳」に含まれる「洪水」の記述67件の中から

    「奉行所日帳」に含まれる「洪水」の記述67件の中から。正徳2年(1712)旧暦6月10日の洪水で、熊本町の「長六橋」が流された記録が発見された(出所:熊本大プレスリリースPDF)

今回の研究では、細川家文書の約5万枚の資料に対し、災害に関するキーワード「大雨、虫、飢、疫」などにより調査が行われた。すると、洪水、作物虫害、飢饉、疫病の発生と、それへの対応が行政課題化した事実を示す記述などが300件以上発見されたという。

  • 左から、「奉行所日帳」、「奉書」、「御国御書案文」、「方々への状控」

    左から、「奉行所日帳」、「奉書」、「御国御書案文」、「方々への状控」(出所:熊本大プレスリリースPDF)

また、それらの中には、これまでよく知られていなかった17世紀後期の気象災害に起因する大規模な飢饉と疫病の蔓延を物語る熊本藩奉行所の執務記録の記述など、未知の重要な記述が含まれることが確認され、熊本における地域防災などに今後、活用するための研究を進めていくとした。

今後、TOPPANと熊本大は共同で「細川家文書」のさらなる解読を続け、この研究を通じて現代における防災計画や、歴史学の学習・研究の拡大に貢献していきたいとする。TOPPANは、グループ会社であるTOPPANデジタル、TOPPANエッジとも連携し、AI-OCRによる古文書解読支援システム「ふみのは」の精度向上を目指すと同時に、全国のさまざまな教育機関、博物館・資料館、地方自治体などとも提携し、全国各地に眠る貴重な歴史的資料の研究・活用の支援に取り組んでいくとした。一方の熊本大は、同文書の解読と分析を進め、一時代の中でも細分化された短期間の枠内で完結するような研究法を克服して、江戸時代の長期にわたる社会変容の過程を通時的に把握し、九州に基点をすえた江戸時代社会史研究の深化に取り組んでいくとしている。