Java用のHTMLパーサ・ライブラリ「HTMLParser 1.5」リリース

杉山貴章  [2005/06/15]

HTMLParserプロジェクトは14日(現地時間)、Java用のHTMLパーサ・ライブラリであるHTMLParserのバージョン1.5を公開した。HTMLParserは、Javaを用いてHTMLの構文解析プログラムを作成するためのライブラリで、高速でシンプルな実装を提供する。

今回公開されたバージョン1.5では、1.4から以下の点が変更された。

  • SAXパーサの追加
  • HTTP接続のためのhttpパッケージの追加
  • CDATAを取り出すためのparseCDATAメソッドをLexerクラスへ追加
  • Translateクラスをhtmllexer.jarから分離
  • Windows用バッチファイルの修正
  • build.xmlファイルの修正
  • LinkProcessorを非推奨にし、Pageクラスへ移行
  • lexer.nodesパッケージを廃止し、ノード関連の実装クラスはnodesパッケージへ追加
  • tags.Tagクラスを廃止してTagNodeクラスへ統合
  • Objectタグを表すObjectTagクラスの追加
  • CSS2セレクタのためのCssSelectorNodeFilterの追加
  • 正規表現をサポートするRegexFilterの追加
  • Linkタグ対応のLinkRegexFilterおよびLinkStringFilterの追加
  • フィルタビルドツール(filterbuilder.jar)の追加
  • 各種バグの修正

HTMLParserでは、HTMLパーサとしての機能はhtmllexer.jarとhtmlparser.jarの2つのライブラリで提供される。htmllexer.jarではHTMLページをタグで分解して順次アクセスする方法が用意されており、htmlparser.jarではそれに加えてタグノードの入れ子情報なども利用することができるようになっている。また、今回新たに追加されたfilterbuilder.jarは、ノードフィルタを自作するためのGUIプログラムを提供する。

プログラマは、htmllexer.jarやhtmlparser.jarをクラスパスに含めることで自作のHTMLパーサを容易に作成することができるようになる。また、LexerクラスやParserクラスはそれ自身でmainメソッドを持つため、そのまま簡易なHTMLパーサとして利用することもできる。HTMLParserのリリースにはそのためのシェルスクリプトやWindows用のバッチファイルも含まれている。



IT製品 "比較/検討" 情報

転職ノウハウ

あなたが本領発揮できる仕事を診断
あなたの仕事適性診断

シゴト性格・弱点が20の質問でサクッと分かる!

「仕事辞めたい……」その理由は?
「仕事辞めたい……」その理由は?

71%の人が仕事を辞めたいと思った経験あり。その理由と対処法は?

3年後の年収どうなる? 年収予報
3年後の年収どうなる? 年収予報

今の年収は適正? 3年後は? あなたの年収をデータに基づき予報します。

激務な職場を辞めたいが、美女が邪魔して辞められない
激務な職場を辞めたいが、美女が邪魔して辞められない

美人上司と可愛い過ぎる後輩に挟まれるエンジニアの悩み

人気記事

一覧

イチオシ記事

新着記事

武井壮、芸能界&スポーツ界の薬物検査を提言「業界が縮小しかねない」
[19:36 6/25] エンタメ
[新木優子]森絵梨佳&太田莉菜&久松郁実と赤裸々女子トーク
[19:21 6/25] エンタメ
[木村佳乃]流行の全身白コーデ 黒木瞳&吉田羊もワンピ姿に
[19:11 6/25] エンタメ
【インタビュー】「おおおおおおーーーーーーッ!!」の叫びに込められたバイクの魅力 - 上田麗奈・山口立花子が『ばくおん!!』への想いを語る
[19:00 6/25] ホビー
[昼のセント酒]癒しの銭湯&酒肴ドラマがきょう最終回 戸次重幸の“美裸体”も見納め!
[18:52 6/25] エンタメ

求人情報