Scrapy爬取豆瓣阅读免费图书内容

以前一直使用的php作为爬虫,因为量不大,php也比较熟悉,写起来比较快。最近初识Python,趁机研究了一下Scrapy,结合angularjs实现豆瓣阅读器使用。

  • 使用Mysql存储数据(Redis也可以用来任性)
  • Scrapy初始化时加载自定义的扩展。主要是查询数据库获取已经爬取的数据,保存在内存中用于后续去重
  • Scrapy 筛选出未爬取页面,进行递归爬取
  • Scrapy 在Items中去重,使用pyv8引擎运行js解析豆瓣加密数据
  • 将解析到的数据保存在数据库中

在Ubuntu里搭建Python环境很让人蛋疼,其他的自己摸索吧,我强调一点就是运行Crawl时报错:Scrapy gives URLError: ,是由S3DownloadHandler 引起的可以参考这个提问
附上GitHub地址
https://github.com/zhoufanqq/doubanReaderCrawl