Login
网站首页 > 文章中心 > 其它

scrapy爬虫-scrapy-redis分布式_scrapy redis增量爬虫

作者:小编 更新时间:2023-08-13 07:56:20 浏览量:18人看过

scrapy爬虫-scrapy-redis分布式_scrapy redis增量爬虫-图1

①.、如何将一个scrapy爬虫项目修改成为一个简单的分布式爬虫项目

官方文档:https://scrapy-redis.readthedocs.io/en/stable/

只用修改scrapy项目的两个文件就可以了

 scrapy
from scrapy_redis.spiders import RedisSpider


# 自定义爬虫类的继承类不再是scrapy.spiders下面的爬虫类,
# 而是scrapy-redis.spiders下面的爬虫类
class DistributedSpiderSpider(RedisSpider):
name = 'distributed_spider'
allowed_domains = ['wh.lianjia.com']
# 将start_urls替换为redis_key
# start_urls = ['https://wh.lianjia.com/ershoufang/']

另一个是设置文件(settings.py):

在设置文件中添加几个设置项就可以了

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# hash + set
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

ITEM_PIPELINES = {
   'DistributedSpider.pipelines.DistributedspiderPipeline': 300,
   'scrapy_redis.pipelines.RedisPipeline': 400
}

REDIS_HOST = "localhost"  # 要连接的redis数据库的地址

REDIS_PORT = "6379"  # redis数据库启动时的默认端口

# 默认是db0(redis有16个数据库,从db0~db15

# 如果远程redis数据库设置了密码,需要加下面一项

REDIS_PARAMS = {

  "password": "********"

}

以上就是土嘎嘎小编为大家整理的scrapy爬虫-scrapy-redis分布式相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!

版权声明:倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本站《原创》内容,违者将追究其法律责任。本站文章内容,部分图片来源于网络,如有侵权,请联系我们修改或者删除处理。

编辑推荐

热门文章