![]() |
The Apache Tika toolkit detects and extracts metadata and structured text content from various documents. |
The Apache Tikaプロジェクトは17日(グリニッジ標準時)、Apache Tikaの最新版となる「Apache Tika 1.2」を公開した。Apache Tikaは、Javaで開発されたドキュメント分析およびメタデータ抽出ツールキット。さまざまなドキュメント形式に対応しており、対象データからメタデータの抽出を実行できる。以前はApache Luceneのサブプロジェクトだったが、2010年にApacheソフトウェア財団のトッププロジェクトに昇格している。
Apache Tika 1.2ではApache CXFに基づくJAX-RS実装のネットワークサーバモジュールの導入、XMPメタデータを取り扱うための新たなサポートなどが加わっている。また、ファイルフォーマット周りも強化されており、KML(Keyhole Markup Language)ドキュメントの基本サポート、XZやPack200といったアーカイブ/圧縮フォーマット、iWorkファイルからのデータ抽出の改善、FITS(Flexible Image Transport System)ファイルの検出、OLE2オフィスドキュメントからのリソース抽出の向上などが行われている。
Apache TikaはApache License 2.0のもとオープンソースで公開されており、Apache Tika 1.2はプロジェクトサイトのダウンロードページより取得できる。
| PDFやOffice文書からメタデータを抽出する「Apache Tika 1.0」登場 [2011/11/11] |
| JAEA、銅やアルミニウムなど非レアメタルで磁気の流れを生みだす原理を発見 [10:00 5/21] |
| 九大と住友金属鉱山、レアメタル分離用の新規抽出剤を開発 [09:30 5/21] |
| Microchip、Arduino互換のchipKIT Fubarino Mini boardなどを発表 [09:30 5/21] |
| Freescale、インテリジェントセンサハブ「Xtrinsic」の新製品を発表 [09:00 5/21] |
| Bradcom、組み込み向け無線接続ソリューション開発キットを発売 [08:30 5/21] |
|
【コラム】エンタープライズ0.2 - 進化を邪魔する社長たち - 第215回 打ち切りが噂される『アゲるテレビ』に見るイノベーション0.2 [10:00 5/21] エンタープライズ |
|
【レポート】早大と防衛医大、外科手術に革命を起こす「ナノ絆創膏」を開発 [10:00 5/21] 開発・SE |
|
JAEA、銅やアルミニウムなど非レアメタルで磁気の流れを生みだす原理を発見 [10:00 5/21] 開発・SE |
|
【連載】ビジネスIT基礎 Excel関数講座 第53回 0以外の平均を求める AVERAGEIF関数 [10:00 5/21] エンタープライズ |
|
【特別企画】マウス20周年記念マイナビニュース特別コラボモデル!! 「LB-K815B-SH-MN」モニターレビュー by manya嫁 [10:00 5/21] パソコン |