読者です 読者をやめる 読者になる 読者になる

html5lib

Python Ruby

A python based HTML parser/tokenizer based on the WHATWG HTML5 specification for maximum compatibility with major desktop web browsers.

http://code.google.com/p/html5lib/

まだ試していないのですが、ValidなHTML5(、とInvalidなやつも)解析するためのライブラリとのこと。
trunkにpythonrubyのライブラリを置いているところがユニークです。


こちらの文書は、HTML5とHTML4の違いを確認するのに便利。

HTML5 differences from HTML4
http://dev.w3.org/cvsweb/~checkout~/html5/html4-differences/Overview.html