たとえば http://www.sbcr.jp/ がそうなのだが,
<TITLE>SOFTBANK Creative:ソフトバンク クリエイティブの出版/サービス情報サイト</TITLE> <META HTTP-EQUIV="content-type" CONTENT="text/html;charset=Shift-JIS">のように,content-typeを指定したメタタグの前に多バイト文字列でタイトルを 書いてしまっている.
htmlparserは,メタタグでcontent-typeを指定された時点で再度パーズにかかるのだが, メタタグ以前の文字の長さが変わるとおかしくなるようだ.頭から再度パーズをするのであれば 問題なさそうなものだが..
で,別のを見つけた. Jerichoというもの.こちらはそのような問題は今のところなさそう.こちらもDOMではなく独自パーズだ.
ああ,しかしはやくすべてがUTF-8とかになってくれないかなあ.面倒でたまらん.
0 件のコメント:
コメントを投稿