借助 scrapy-redis 实现 scrapy 分布式爬虫 | Verne in GitHub

Posted on 04/30/2017 by Ein Verne | View revision history

最原始的 Scrapy 项目是只能将爬虫部署到单机上，如果要实现分布式爬虫就需要手动去维护一个待抓取的列表，那么 scrapy-redis 项目就是这样一个存在。

特性：

分布式抓取，可以部署多个 spider 实例，共享同一个 redis 队列
分布式后处理，抓取的内容会放到一个队列中，这样就意味可以开启足够多的实例来处理结果
提供了即插即用的组件，包括定时，去重，等等

Scrapy 的局限

Scrapy 已经能够满足大部分爬虫的需要，但是有一些场景 Scrapy 并不适用。

对于页面数量比较少的站点，并不需要 Scrapy，通过 Requests 就能够满足需要
需要增量爬取数据时，Scrapy 并不能实现。

安装

pip install scrapy-redis

使用

先要在 settings 中配置，具体参考官方文档，代码集成如下：

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
    name = 'myspider'

    def parse(self, response):
        # do stuff
        pass

reference

https://scrapy-redis.readthedocs.io/en/stable/

Related Posts

使用 Celery Once 来防止 Celery 重复执行同一个任务 - 01/24/2018
爬虫相关技术整理 - 09/05/2017
爬虫相关材料整理 - 08/29/2017
Celery 最佳实践 - 05/21/2017
借助 scrapy-redis 实现 scrapy 分布式爬虫 - 04/30/2017
在 Python 中使用 redis 作为任务队列 Python RQ 使用 - 04/25/2017
Scrapy 学习笔记及简单使用 - 04/23/2017

如果要使用 Remark42 进行评论确保访问的域名为 https://blog.einverne.info 或者点击这里评论。

blog comments powered by Disqus

学习笔记 497