メモ捨て場: crawl したfile をファイルシステム上で読めるようにする

2015年1月21日水曜日

地味に非常に面倒だ。。

何が問題かというと、リンク文字列とファイル名の関係。
ブラウザはリンク文字列の中にURLエンコードのパターン（％に数字２つ）を
発見すると、勝手にデコードして検索に行く。

さらに、リンク中の”？”の問題がある。
これはpukiwiki のようなCMSをクロールした場合に固有な話だが、
リンクには”？”がふくまれており、ダウンロードしたファイル名にも？が
そのまま入っている。この場合どうもアクセス出来ないようだ。

したがって、

まじか。。

メモ捨て場