<TITLE>SOFTBANK Creative:ソフトバンク クリエイティブの出版/サービス情報サイト</TITLE> <META HTTP-EQUIV="content-type" CONTENT="text/html;charset=Shift-JIS">のように,content-typeを指定したメタタグの前に多バイト文字列でタイトルを 書いてしまっている. htmlparserは,メタタグでcontent-typeを指定された時点で再度パーズにかかるのだが, メタタグ以前の文字の長さが変わるとおかしくなるようだ.頭から再度パーズをするのであれば 問題なさそうなものだが.. で,別のを見つけた. Jerichoというもの.こちらはそのような問題は今のところなさそう.こちらもDOMではなく独自パーズだ. ああ,しかしはやくすべてがUTF-8とかになってくれないかなあ.面倒でたまらん.
2010年3月9日火曜日
Jericho HTML parser
GAE内で使うHTML パーザとしてhttp://htmlparser.sourceforge.net/を使っていた.これは,metaタグを見て文字コードを識別してくれ,なかなかよいと思っていたのだが,特定のページでエラーが出ることが判明.
たとえば http://www.sbcr.jp/ がそうなのだが,
登録:
コメントの投稿 (Atom)
0 件のコメント:
コメントを投稿