ファイマテクノロジーは7月26日、生成AI向けPDF抽出サービス「1extract(ワンエクストラクト)」の提供を開始したことを発表した。

「1extract」の概要

同サービスはAIや機会学習の分野においてPDF活用の需要は高まっているものの、「PDFから正確にテキストデータが読み込まれない」「画像が入っているPDFデータだと、本文と画像のテキストが混在して読み込まれてしまう」といった顧客の声をもとに開発。

2021年にリリースした論文翻訳AI「1paper」の論文PDF抽出エンジンを、1extractとしてサービス化したものとなっている。

同サービスを活用したテキストデータを用いることで、生成AI活用型のチャットボットなどが社内にあるPDF文書や論文PDFなどに基づいて質問応答することが可能になる。

1paperで培ったPDFデータ抽出エンジンにより、文書構造を踏まえて正確に情報抽出ができるため、書かれた事実のみに基づいて正確に回答する生成AI活用システムを構築できる。

「1extract」活用事例

1extractでは「PDFファイルからテキスト情報の正確な抽出や、文字情報が埋め込まれていないスキャンデータでも事前のOCR処理なく情報の抽出が可能。

また、文字データをコピー&ペーストできない特殊なPDFファイルの対応に加え、認識した文字データの改行・改ページ部分も自動で文章を連結してコンテクストを崩さずに抽出結果の出力、原文通り残したい図や式はそのままに画像として出力することなどができるという。

  • サービスのイメージ

    サービスのイメージ

活用事例としては、正確なテキストデータを用いた生成AI活用のチャットシステムにおける回答精度の改善、特許。論文などの技術文書を用いた生成AIによる新しい業務プロセスの構築、医学、生命科学、物理学、化学などの研究分野における新しい知の探索方法の確立といったものがある。

  • システムの概要

    システムの概要

同社は、今後、国産LLM(大規模言語モデル)開発を行う多くの研究者や開発者の力になり、日本企業の研究力向上に貢献したい考え。