2010年3月20日土曜日

Bubbl.us

オンラインのマインドマップソフト. Bubbl.us. なかなかよくできているが, 共同作業はできないようだ.フラッシュかな?

2010年3月9日火曜日

Jericho HTML parser

GAE内で使うHTML パーザとしてhttp://htmlparser.sourceforge.net/を使っていた.これは,metaタグを見て文字コードを識別してくれ,なかなかよいと思っていたのだが,特定のページでエラーが出ることが判明.

たとえば http://www.sbcr.jp/ がそうなのだが,

<TITLE>SOFTBANK Creative:ソフトバンク クリエイティブの出版/サービス情報サイト</TITLE> 
<META HTTP-EQUIV="content-type" CONTENT="text/html;charset=Shift-JIS"> 
のように,content-typeを指定したメタタグの前に多バイト文字列でタイトルを 書いてしまっている.

htmlparserは,メタタグでcontent-typeを指定された時点で再度パーズにかかるのだが, メタタグ以前の文字の長さが変わるとおかしくなるようだ.頭から再度パーズをするのであれば 問題なさそうなものだが..

で,別のを見つけた. Jerichoというもの.こちらはそのような問題は今のところなさそう.こちらもDOMではなく独自パーズだ.

ああ,しかしはやくすべてがUTF-8とかになってくれないかなあ.面倒でたまらん.