双子パパのPerl日記

Web Scraper

FireBugsで取得したxpathでも取れないことがあるので、scrapeにした後のcontentsを保存して、xpathをとるのが確実(tbodyは認識しないようなので別途削除)。

 

ソースの文字コードも重要。UTF-8にしたらあっさり動いた。

 

WebScraperHelperは中身のHTMLが確認できるので、上の階層のコードが分かって使いやすい。ただ、GTKのインストールがうまくできない環境もあって、2台中1台しか動作していない(原因不明)。

 

2010/06/16