Java用のHTMLパーサ・ライブラリ「HTMLParser 1.5」リリース

杉山貴章  [2005/06/15]

HTMLParserプロジェクトは14日(現地時間)、Java用のHTMLパーサ・ライブラリであるHTMLParserのバージョン1.5を公開した。HTMLParserは、Javaを用いてHTMLの構文解析プログラムを作成するためのライブラリで、高速でシンプルな実装を提供する。

今回公開されたバージョン1.5では、1.4から以下の点が変更された。

  • SAXパーサの追加
  • HTTP接続のためのhttpパッケージの追加
  • CDATAを取り出すためのparseCDATAメソッドをLexerクラスへ追加
  • Translateクラスをhtmllexer.jarから分離
  • Windows用バッチファイルの修正
  • build.xmlファイルの修正
  • LinkProcessorを非推奨にし、Pageクラスへ移行
  • lexer.nodesパッケージを廃止し、ノード関連の実装クラスはnodesパッケージへ追加
  • tags.Tagクラスを廃止してTagNodeクラスへ統合
  • Objectタグを表すObjectTagクラスの追加
  • CSS2セレクタのためのCssSelectorNodeFilterの追加
  • 正規表現をサポートするRegexFilterの追加
  • Linkタグ対応のLinkRegexFilterおよびLinkStringFilterの追加
  • フィルタビルドツール(filterbuilder.jar)の追加
  • 各種バグの修正

HTMLParserでは、HTMLパーサとしての機能はhtmllexer.jarとhtmlparser.jarの2つのライブラリで提供される。htmllexer.jarではHTMLページをタグで分解して順次アクセスする方法が用意されており、htmlparser.jarではそれに加えてタグノードの入れ子情報なども利用することができるようになっている。また、今回新たに追加されたfilterbuilder.jarは、ノードフィルタを自作するためのGUIプログラムを提供する。

プログラマは、htmllexer.jarやhtmlparser.jarをクラスパスに含めることで自作のHTMLパーサを容易に作成することができるようになる。また、LexerクラスやParserクラスはそれ自身でmainメソッドを持つため、そのまま簡易なHTMLパーサとして利用することもできる。HTMLParserのリリースにはそのためのシェルスクリプトやWindows用のバッチファイルも含まれている。



IT製品 "比較/検討" 情報

転職ノウハウ

あなたが本領発揮できる仕事を診断
あなたの仕事適性診断

シゴト性格・弱点が20の質問でサクッと分かる!

「仕事辞めたい……」その理由は?
「仕事辞めたい……」その理由は?

71%の人が仕事を辞めたいと思った経験あり。その理由と対処法は?

3年後の年収どうなる? 年収予報
3年後の年収どうなる? 年収予報

今の年収は適正? 3年後は? あなたの年収をデータに基づき予報します。

激務な職場を辞めたいが、美女が邪魔して辞められない
激務な職場を辞めたいが、美女が邪魔して辞められない

美人上司と可愛い過ぎる後輩に挟まれるエンジニアの悩み

特別企画 PR

人気記事

一覧

イチオシ記事

新着記事

NMB48山本彩、アイドル刺傷事件「人ごとじゃない」- ファンとの距離感悩む
[15:28 5/27] エンタメ
[ドラゴンクエスト]渋谷ヒカリエで30周年記念の体験型イベント 原寸大の「ロト装備」やジオラマも展示
[15:00 5/27] ホビー
トレンドマイクロ、TeslaCrypt/CryptXXX対応の復号ツールを無償提供
[14:54 5/27] パソコン
ASUS、Thunderbolt 3・USB 3.1 Type-C拡張カード付属のX99 ATXマザー
[14:52 5/27] パソコン
宮迫博之、さんまに「生きてるだけでクレームです!!」新大阪での被害を報告
[14:45 5/27] エンタメ

特別企画 PR

求人情報