不正なHTMLもパース可能 - Jericho HTML Parser 2.3

後藤大地  [2006/09/12]

The Jericho HTML Parser projectは11日(米国時間)、Jericho HTML Parserの最新版となるJericho HTML Parser 2.3を公開した。Jericho HTML Parser(以降、JHP)はJavaで実装されたHTMLパーサライブラリ。不正なフォーマットのHTMLファイルであってもパースが可能なほか、HTMLフォームの高度な操作機能などが提供されている。

JHPはGNU LESSER GENERAL PUBLIC LICENSE Version 2.1のもとで公開されているオープンソースソフトウェア。2.3における主な変更点は次のとおり。

  • Source.fullSequentialParse()においてキャッシュが空でなかった場合にIllegalStateException例外をスルーせず、自動的にキャッシュをクリアするように処理を変更
  • いくつかのコンポーネントのふるまいを変更
  • ドキュメントの改善
  • 各種バグの改善

将来のリリースでHTMLをテキストにレンダリングするサンプルや、HTMLをXHTMLに変換するサンプルなどが含まれる予定になっているほか、要望があれば.NET版の作成も検討するとしている。

HTMLをパースするライブラリはほかにもJavaCC HTML Parser、Demonstrational HTML parser、JTidy、Kizna HTML Parser、CyberNeko HTML Parserなどいくつか存在する。Javaの標準APIにもjavax.swing.text.html.parser.Parserが用意されている。同プロジェクトの主要開発者であるMartin Jericho氏は、HTMLパーサを調査した時点で自分の要求を満たすライブラリが見つからなかったため、Jericho HTML Parserを開発するにいたったと述べている。

    関連サイト

    新着記事

    特設サイトの情報

    求人情報

    人気記事

    一覧

    イチオシ記事

    新着記事

    特別企画

    一覧

    転職ノウハウ

    あなたの仕事適性診断

    4つの診断で、自分の適性を見つめなおそう!

    Heroes File ~挑戦者たち~

    働くこと・挑戦し続けることへの思いを綴ったインタビュー

    はじめての転職診断

    あなたにピッタリのアドバイスを読むことができます。

    転職Q&A

    転職に必要な情報が収集できます

    スカウト転職する

    企業からアプローチのメッセージが届きます。