添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《 阿里云开发者社区用户服务协议 》和 《 阿里云开发者社区知识产权保护指引 》。如果您发现本社区中有涉嫌抄袭的内容,填写 侵权投诉表单 进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

image.png

需要安装的库比较多,可以按照步骤,参看上图理解


环境准备

scrapy: https://github.com/scrapy/scrapy

scrapyd: https://github.com/scrapy/scrapyd

scrapyd-client: https://github.com/scrapy/scrapyd-client

SpiderKeeper: https://github.com/DormyMo/SpiderKeeper


安装


pip install scrapy scrapyd scrapyd-client spiderkeeper

部署项目

第一步,启动scrapyd

$ scrapyd

测试地址:http://localhost:6800/


关于scrapyd的部署安装参考:scrapy部署之scrapyd


第二步,启动SpiderKeeper

借用 SpiderKeeper 的 github 的指导(我翻译的):

命令行启动


$ spiderkeeper

选项:


spiderkeeper [options]
Options:
  -h, --help            展示帮助信息并且退出
  --host=HOST           host, 默认:0.0.0.0
  --port=PORT           port, 默认:5000
  --username=USERNAME   设置用户名 ,默认: admin
  --password=PASSWORD   设置密码 ,默认: admin
  --type=SERVER_TYPE    接受蜘蛛服务器类型, 默认: scrapyd
  --server=SERVERS      爬虫服务器, 默认: ['http://localhost:6800']
  --database-url=DATABASE_URL
                        SpiderKeeper 数据库,默认: sqlite:home/souche/SpiderKeeper.db
  --no-auth             不进行验证
  -v, --verbose         日志级别
1

SpiderKeeper可视化地址: http://localhost:5000


第三步,部署项目

1、创建项目


2、使用 scrapyd-client 生成 egg 文件 (进入需要上传的scrapy项目目录)


$ scrapyd-deploy --build-egg output.egg

3、上传 egg 文件 (确保已经启动 scrapyd 服务)


4、 完成!开始享受吧


总结

看着比较多,其实就是执行了四行语句:


安装4个包

启动scrapyd

启动spiderkeeper

打包scrapy项目

错误及解决

如果提示端口占用就参考这个文章解决:


flask的端口占用问题