基于python的分布式爬虫
https://www.mongodb.org/downloads 默认端口运行mongoDB
linux 安装
#ubuntu pip install python-dev #centos yum install python-devel windows 下的 gevent 可能需要安装 Microsoft Visual C++ Compiler for Python 2.7 http://www.microsoft.com/en-us/download/confirmation.aspx?id=44266
pip install requests pip install pymongo pip install flask pip install flask-compress pip install gevent pip install tld pip install click 服务器
python service.py 客服端
python client.py http://127.0.0.1 - 参数可配置化, 还有mongo的连接配置
- slave 执行环境安全
- setup.py
- 列表的时间排序有问题
- 每个项目都可以添加多个url抓取入口
- 项目与爬虫的抓取频率显示
- 结果页面图片浏览模式
- 新建项目且修改代码时,会有缓存且爬虫会使用旧代码进行抓取