大量PDFのデータ抽出で高精度分析を効率化する「Adobe PDF Extract API」

アドビは10月13日、PDFから文書構造を維持したままに構造分析を行える「Adobe PDF Extract API」が三菱UFJトラスト投資工学研究所に導入されたことを発表した。

PDF Extract APIは、資料価値のあるPDFファイルからテキストや画像などを抽出できるAdobe Document Serviceのひとつで、構造化されたデータのまま大量のPDFファイルを解析できる機能を提供する。AdobeのWebサイトには、実際のPDFでJSON、PNG、CSV形式でアウトプットするデモも用意されており、PDFファイルの構造やテキストをJSONで出力し、フォルダに画像ファイルやCSVファイルを出力している。

「Adobe PDF Extract API」のデモサイト

PDF Extract APIを導入したのは、日本初の金融工学に特化したシンクタンクとして設立された三菱UFJトラスト投資工学研究所。同社は、三菱UFJフィナンシャル・グループ(MUFG)の研究所として、膨大なデータを収集・分析しているが、PDFファイルも重要なデータになる。各社の決算報告書をはじめ、重要な報告書をPDFファイルで提供する企業も多い。同社では、PDF Extract APIの導入によりこれまで、目視での確認を要していた900にもおよぶPDFの統合報告書から、テキストデータの抽出を3日で完了させている。三菱ＵＦＪトラスト投資工学研究所研究部開発第2グループの成富佑輔氏は、"分析にあたってPDFから正確な情報を構造データを損なうことなく抽出することは必要不可欠"とその有用性を述べている。

大量PDFのデータ抽出で高精度分析を効率化する「Adobe PDF Extract API」

富士フイルム、300mmウェハ対応の面圧解析システム「プレスケールステーションA3」を発売

早大など、筋トレでもストレッチと同等に筋肉を柔らかくできることを実証

日本の月探査支える民間通信インフラ実証へ　ispaceとスカパーJSATが連係

九大、星の誕生につながる前恒星コアでのイオンと中性ガスの速度差を検出

製造業の“見える化・省人化”に向け、三菱電機とソニーセミコンが新会社設立

北大、南極隕石が無汚染であることを証明し宇宙由来の核酸塩基全5種を検出

関連リンク

なんとなくコマンド第118回 RAMディスクを作る（Raspberry PI）

三井倉庫ロジスティクス×日本IBM、現場社員がAIアプリケーションを開発・運用する実践型人材育成モデル構築

エンタープライズIT新潮流第75回 SaaS is Deadの悲劇を避けるための戦略の再構築法

PowerShellプロンプトを関数で様々にカスタマイズ

デスクトップ日付作業フォルダをデータに"横串検索機能"を搭載する

ITエンジニアの約6割が職場で「AI格差」を実感 - レバレジーズ調査

このカテゴリーについて

大量PDFのデータ抽出で高精度分析を効率化する「Adobe PDF Extract API」

富士フイルム、300mmウェハ対応の面圧解析システム「プレスケールステーションA3」を発売

早大など、筋トレでもストレッチと同等に筋肉を柔らかくできることを実証

日本の月探査支える民間通信インフラ実証へ ispaceとスカパーJSATが連係

九大、星の誕生につながる前恒星コアでのイオンと中性ガスの速度差を検出

製造業の“見える化・省人化”に向け、三菱電機とソニーセミコンが新会社設立

北大、南極隕石が無汚染であることを証明し宇宙由来の核酸塩基全5種を検出

関連リンク

なんとなくコマンド 第118回 RAMディスクを作る（Raspberry PI）

三井倉庫ロジスティクス×日本IBM、現場社員がAIアプリケーションを開発・運用する実践型人材育成モデル構築

エンタープライズIT新潮流 第75回 SaaS is Deadの悲劇を避けるための戦略の再構築法

PowerShellプロンプトを関数で様々にカスタマイズ

デスクトップ日付作業フォルダをデータに"横串検索機能"を搭載する

ITエンジニアの約6割が職場で「AI格差」を実感 - レバレジーズ調査

このカテゴリーについて

日本の月探査支える民間通信インフラ実証へ　ispaceとスカパーJSATが連係

なんとなくコマンド第118回 RAMディスクを作る（Raspberry PI）

エンタープライズIT新潮流第75回 SaaS is Deadの悲劇を避けるための戦略の再構築法