Python爬虫scrapy-redis分布式实例_一)_scrapy redis分布式爬虫

作者：小编更新时间：2023-09-06 18:24:46 浏览量：483人看过

目标任务：将之前新浪网的Scrapy爬虫项目,修改为基于RedisSpider类的scrapy-redis分布式爬虫项目,将数据存入redis数据库.

第一段：item文件,和之前项目一样不需要改变

# -*- coding: utf-8 -*-

import scrapy



import sys
reload(sys)
sys.setdefaultencoding("utf-8")
class SinanewsItem(scrapy.Item):
# 大类的标题和url
parentTitle = scrapy.Field()
parentUrls = scrapy.Field()



# 小类的标题和子url
subTitle = scrapy.Field()
subUrls = scrapy.Field()

# 小类目录存储路径
subFilename = scrapy.Field()

# 小类下的子链接
sonUrls = scrapy.Field()

# 文章标题和内容
head = scrapy.Field()
content = scrapy.Field()

第二段：spiders爬虫文件,使用RedisSpider类替换之前的Spider类,其余地方做些许改动即可,具体代码如下：
# -*- coding: utf-8 -*-

import scrapy
import os
from sinaNews.items import SinanewsItem
from scrapy_redis.spiders import RedisSpider
import sys
reload(sys)

sys.setdefaultencoding("utf-8")
class SinaSpider(RedisSpider):
name = "sina"
# 启动爬虫的命令
redis_key = "sinaspider:strat_urls"
　　# 动态定义爬虫爬取域范围
def init(self, args, **kwargs):
domain = kwargs.pop('domain', '')
self.allowed_domains = filter(None, domain.split(','))
super(SinaSpider, self).init(args, **kwargs)

第三段：settings文件设置
SPIDER_MODULES = ['sinaNews.spiders']
NEWSPIDER_MODULE = 'sinaNews.spiders'

# 使用scrapy-redis里的去重组件,不使用scrapy默认的去重方式
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis里的调度器组件,不使用默认的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 允许暂停,redis请求记录不丢失
SCHEDULER_PERSIST = True
# 默认的scrapy-redis请求队列形式（按优先级）
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 队列形式,请求先进先出

 栈形式,请求先进后出

# 只是将数据放到redis数据库,不需要写pipelines文件
ITEM_PIPELINES = {
#    'Sina.pipelines.SinaPipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 400,
}
# LOG_LEVEL = 'DEBUG'
# Introduce an artifical delay to make use of parallelism. to speed up the
 crawl.
DOWNLOAD_DELAY = 1
# 指定数据库的主机IP
REDIS_HOST = "192.16⑧1③26"
# 指定数据库的端口号
REDIS_PORT = 6379

执行命令：
本次直接使用本地的redis数据库,将settings文件中的REDIS_HOST和REDIS_PORT注释掉.
启动爬虫程序
scrapy runspider sina.py


执行程序后终端窗口显示如下：

表示程序处于等待状态,此时在redis数据库端执行如下命令：

http://news.sina.com.cn/guide/为起始url,此时程序开始执行.
# -*- coding: utf-8 -*-

import scrapy
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
class SinanewsItem(scrapy.Item):
# 大类的标题和url
parentTitle = scrapy.Field()
parentUrls = scrapy.Field()
# 小类的标题和子url
subTitle = scrapy.Field()
subUrls = scrapy.Field()

# 小类目录存储路径
subFilename = scrapy.Field()

# 小类下的子链接
sonUrls = scrapy.Field()

# 文章标题和内容
head = scrapy.Field()
content = scrapy.Field()

# -*- coding: utf-8 -*-

import scrapy
import os
from sinaNews.items import SinanewsItem
from scrapy_redis.spiders import RedisSpider
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
class SinaSpider(RedisSpider):
name = "sina"
# 启动爬虫的命令
redis_key = "sinaspider:strat_urls"
　　# 动态定义爬虫爬取域范围
def init(self, args, **kwargs):
domain = kwargs.pop('domain', '')
self.allowed_domains = filter(None, domain.split(','))
super(SinaSpider, self).init(args, **kwargs)

SPIDER_MODULES = ['sinaNews.spiders']
NEWSPIDER_MODULE = 'sinaNews.spiders'

# 使用scrapy-redis里的去重组件,不使用scrapy默认的去重方式
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis里的调度器组件,不使用默认的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 允许暂停,redis请求记录不丢失
SCHEDULER_PERSIST = True
# 默认的scrapy-redis请求队列形式（按优先级）
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 队列形式,请求先进先出

 栈形式,请求先进后出

# 只是将数据放到redis数据库,不需要写pipelines文件
ITEM_PIPELINES = {
#    'Sina.pipelines.SinaPipeline': 300,
'scrapy_redis.pipelines.RedisPipeline': 400,
}
# LOG_LEVEL = 'DEBUG'
# Introduce an artifical delay to make use of parallelism. to speed up the
 crawl.
DOWNLOAD_DELAY = 1
# 指定数据库的主机IP
REDIS_HOST = "192.16⑧1③26"
# 指定数据库的端口号
REDIS_PORT = 6379

scrapy runspider sina.py




以上就是土嘎嘎小编为大家整理的Python爬虫scrapy-redis分布式实例_一)相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦！！


    
		
			
			    				##################部分内容隐藏限制##################
			     浏览当前隐藏内容需要支付【0.00RNB】
			     购买查看完整文章
	        
		
			
				
				
   
	
	   
		   			
					   
		   登录/购买


      版权声明：倡导尊重与保护知识产权。未经许可，任何人不得复制、转载、或以其他方式使用本站《原创》内容，违者将追究其法律责任。本站文章内容，部分图片来源于网络，如有侵权，请联系我们修改或者删除处理。
		
		  
			
				相关推荐
			
			
				
python函数套用_python函数参考手册
php无法显示数据库中文
新超越极限隐藏剧情_新超越极限2.26 AK如何开启魔道
mysql怎么改表的字段
java输十二个月的代码的简单介绍
linux命令行显示电量
win10目标文件夹访问被拒绝
java跳一跳游戏代码
代码php监测数据变更
python函数索引节点
mysql驱动程序怎么
c语言怎么自己设定函数
c语言傅里叶函数滤波
c语言减法器函数
oracle如何运行脚本
python函数切割_Python 切割数据


  
    
      编辑推荐
      
               1chrome web store
                2易语言变量地址转换为变量源码分享
                3BUTTONONCLICK点击以及异常解决方法
                4date.plusday介绍
                5python火柴人游戏代码
                6ftp反向代理配置，frps反向代理设置方法
                7完全背包问题python
                8重启iis命令,iis停止命令
                9php 多线程和队列有啥区别
                10CSS实现立体字的效果
                1PHPRunner下载_生成PHP代码的Windows应用程序
                2AppNode-Linux服务器集群管理系统
                3天宇加速器 下载
                4VB6防破解之金蝉脱壳防LOADER源码分享
                5土嘎嘎Post推送调试工具V1.2
                6海纳百川下载器
                7Image转换为HTML工具 v1.0.0.5 免费版_tpzhtml图片转HTML工具
                8夜鹰海盗盟反文件捆绑器V2.4
                9易语言5.93完全版下载(包括知识库、多媒体教程)
                10夜鹰海盗盟http代理检测工具_http代理测试软件下载
        


      
    
    
      热门文章
      
                1夜鹰海盗盟android反编译教程
                2vb字符串截取代码大全
                3php截取网页代码某个部分



   Copyright @ 2012-2025 土嘎嘎 版权所有

网站首页

视频教程

下载频道

文章中心

问答中心

在线工具

Python爬虫scrapy-redis分布式实例_一)_scrapy redis分布式爬虫

栈形式,请求先进后出

crawl.

栈形式,请求先进后出

crawl.

相关推荐

编辑推荐

热门文章