Scrapy爬取豆瓣阅读免费图书内容

以前一直使用的php作为爬虫,因为量不大,php也比较熟悉,写起来比较快。最近初识Python,趁机研究了一下Scrapy,结合angularjs实现豆瓣阅读器使用。

  • 使用Mysql存储数据(Redis也可以用来任性)
  • Scrapy初始化时加载自定义的扩展。主要是查询数据库获取已经爬取的数据,保存在内存中用于后续去重
  • Scrapy 筛选出未爬取页面,进行递归爬取
  • Scrapy 在Items中去重,使用pyv8引擎运行js解析豆瓣加密数据
  • 将解析到的数据保存在数据库中

前端优化及前后端分离初涉

目前聚派网测试版运营2个月多了,1.0版本改版在即。基于测试版的经验以及后续团队的扩张,我认为在未来半年到一年的时间内版本会快速叠代,但大体框架,技术选型,开发规范都不会改变。故趁现在我需要对上面的三个问题进行选择和思考。


  1. 框架选择:后端选择thinkphp框架,前端使用jquery,移动端使用zepto。
    • thinkphp是目前国内较好的开源框架,文档完善,demo齐全,社区活跃。对于以后人员招聘和培养成本较低
    • jquery是前端基础选型,至于模块化开发和按需加载之类的优化,因为团队较小,过早的介入这些规范,会适得其反,我一直认为没有最好的技术,只有最合适的!在有限的时间没做出最大的收益。在此之前,有考虑过angularjs,但有一大致命伤是seo优化问题,学习成本等问题也需要解决。