2015年1月21日水曜日

crawl したfile をファイルシステム上で読めるようにする

地味に非常に面倒だ。。
何が問題かというと、リンク文字列とファイル名の関係。
ブラウザはリンク文字列の中にURLエンコードのパターン(%に数字2つ)を
発見すると、勝手にデコードして検索に行く。
さらに、リンク中の”?”の問題がある。
これはpukiwiki のようなCMSをクロールした場合に固有な話だが、
リンクには”?”がふくまれており、ダウンロードしたファイル名にも?が
そのまま入っている。この場合どうもアクセス出来ないようだ。
したがって、
  • ファイル名をすべてURLデコードし
  • さらに、ファイルの中のリンクの?を全部’%3F’ に置き換えていかなければならない。。
まじか。。

0 件のコメント: