①.、如何将一个scrapy爬虫项目修改成为一个简单的分布式爬虫项目
官方文档:https://scrapy-redis.readthedocs.io/en/stable/
只用修改scrapy项目的两个文件就可以了
scrapy from scrapy_redis.spiders import RedisSpider # 自定义爬虫类的继承类不再是scrapy.spiders下面的爬虫类, # 而是scrapy-redis.spiders下面的爬虫类 class DistributedSpiderSpider(RedisSpider): name = 'distributed_spider' allowed_domains = ['wh.lianjia.com'] # 将start_urls替换为redis_key # start_urls = ['https://wh.lianjia.com/ershoufang/']
另一个是设置文件(settings.py):
在设置文件中添加几个设置项就可以了
SCHEDULER = "scrapy_redis.scheduler.Scheduler" # hash + set DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" ITEM_PIPELINES = { 'DistributedSpider.pipelines.DistributedspiderPipeline': 300, 'scrapy_redis.pipelines.RedisPipeline': 400 } REDIS_HOST = "localhost" # 要连接的redis数据库的地址 REDIS_PORT = "6379" # redis数据库启动时的默认端口 # 默认是db0(redis有16个数据库,从db0~db15 # 如果远程redis数据库设置了密码,需要加下面一项 REDIS_PARAMS = { "password": "********" }
以上就是土嘎嘎小编为大家整理的scrapy爬虫-scrapy-redis分布式相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!