2015-09-17

Scrapy爬取豆瓣阅读免费图书内容

以前一直使用的php作为爬虫，因为量不大，php也比较熟悉，写起来比较快。最近初识Python，趁机研究了一下Scrapy，结合angularjs实现豆瓣阅读器使用。

使用Mysql存储数据（Redis也可以用来任性）

Scrapy初始化时加载自定义的扩展。主要是查询数据库获取已经爬取的数据，保存在内存中用于后续去重

Scrapy 筛选出未爬取页面，进行递归爬取

Scrapy 在Items中去重，使用pyv8引擎运行js解析豆瓣加密数据

将解析到的数据保存在数据库中

在Ubuntu里搭建Python环境很让人蛋疼，其他的自己摸索吧，我强调一点就是运行Crawl时报错：Scrapy gives URLError: ，是由S3DownloadHandler 引起的可以参考这个提问
附上GitHub地址
https://github.com/zhoufanqq/doubanReaderCrawl