Java用のHTMLパーサ・ライブラリ「HTMLParser 1.5」リリース

 

HTMLParserプロジェクトは14日(現地時間)、Java用のHTMLパーサ・ライブラリであるHTMLParserのバージョン1.5を公開した。HTMLParserは、Javaを用いてHTMLの構文解析プログラムを作成するためのライブラリで、高速でシンプルな実装を提供する。

今回公開されたバージョン1.5では、1.4から以下の点が変更された。

  • SAXパーサの追加
  • HTTP接続のためのhttpパッケージの追加
  • CDATAを取り出すためのparseCDATAメソッドをLexerクラスへ追加
  • Translateクラスをhtmllexer.jarから分離
  • Windows用バッチファイルの修正
  • build.xmlファイルの修正
  • LinkProcessorを非推奨にし、Pageクラスへ移行
  • lexer.nodesパッケージを廃止し、ノード関連の実装クラスはnodesパッケージへ追加
  • tags.Tagクラスを廃止してTagNodeクラスへ統合
  • Objectタグを表すObjectTagクラスの追加
  • CSS2セレクタのためのCssSelectorNodeFilterの追加
  • 正規表現をサポートするRegexFilterの追加
  • Linkタグ対応のLinkRegexFilterおよびLinkStringFilterの追加
  • フィルタビルドツール(filterbuilder.jar)の追加
  • 各種バグの修正

HTMLParserでは、HTMLパーサとしての機能はhtmllexer.jarとhtmlparser.jarの2つのライブラリで提供される。htmllexer.jarではHTMLページをタグで分解して順次アクセスする方法が用意されており、htmlparser.jarではそれに加えてタグノードの入れ子情報なども利用することができるようになっている。また、今回新たに追加されたfilterbuilder.jarは、ノードフィルタを自作するためのGUIプログラムを提供する。

プログラマは、htmllexer.jarやhtmlparser.jarをクラスパスに含めることで自作のHTMLパーサを容易に作成することができるようになる。また、LexerクラスやParserクラスはそれ自身でmainメソッドを持つため、そのまま簡易なHTMLパーサとして利用することもできる。HTMLParserのリリースにはそのためのシェルスクリプトやWindows用のバッチファイルも含まれている。



転職ノウハウ

あなたが本領発揮できる仕事を診断
あなたの仕事適性診断

シゴト性格・弱点が20の質問でサクッと分かる!

「仕事辞めたい……」その理由は?
「仕事辞めたい……」その理由は?

71%の人が仕事を辞めたいと思った経験あり。その理由と対処法は?

3年後の年収どうなる? 年収予報
3年後の年収どうなる? 年収予報

今の年収は適正? 3年後は? あなたの年収をデータに基づき予報します。

激務な職場を辞めたいが、美女が邪魔して辞められない
激務な職場を辞めたいが、美女が邪魔して辞められない

美人上司と可愛い過ぎる後輩に挟まれるエンジニアの悩み

人気記事

一覧

イチオシ記事

新着記事

新たな末柄里恵大好き声優その名は駒形友梨! 新ユニットも明かされた『ミリオンライブ!』in C3TOKYO
[00:43 8/29] ホビー
[NMB48矢倉楓子]「ヤンマガ」グラビアでビキニ披露 選抜ネクストガールズのセンターが大胆に
[00:00 8/29] エンタメ
[瑛茉ジャスミン]「天才てれびくん」出身の美女が「ヤンマガ」グラビアでセクシーに ビキニ姿を披露
[00:00 8/29] エンタメ
Googleお役立ちテクニック - GoogleドライブをPCにインストールする
[00:00 8/29] パソコン
小室哲哉とヒャダインが共同作曲“運動したくない歌”
[23:00 8/28] エンタメ

求人情報