Login
网站首页 > 文章中心 > 其它

Python_Scrapy框架第一个入门程序示例

作者:小编 更新时间:2023-08-16 09:43:02 浏览量:315人看过

下面我将详细介绍"Python Scrapy框架第一个入门程序示例"的完整攻略及两条示例说明.

什么是Scrapy框架?

Scrapy是一个基于Python的开源网络爬虫框架,可以帮助我们快速高效地爬取数据并进行处理.

Scrapy的安装方法

在使用Scrapy框架之前,我们需要先安装Scrapy.可以通过以下命令在命令行中安装Scrapy.


pip install scrapy


Scrapy框架第一个入门程序

下面我们来看一个简单的Scrapy框架的示例,以便更好地理解其工作原理和应用.

示例一:爬取豆瓣电影排行榜的数据

首先,新建一个项目并创建一个Spider:


scrapy startproject douban_movie
cd douban_movie
scrapy genspider douban_movie_spider movie.douban.com


此时此刻呢,在Spider中定义需要爬取的数据项:


class DoubanMovieItem(scrapy.Item):
title = scrapy.Field()
rating_num = scrapy.Field()
quote = scrapy.Field()


然后,设置需要爬取的网址:


start_urls = ['https://movie.douban.com/top250']


接着,编写爬虫代码:


def parse(self, response):
for movie in response.css('.item'):
    item = DoubanMovieItem()
    title = movie.css('.title::text').extract_first()
    rating_num = movie.css('.rating_num::text').extract_first()
    quote = movie.css('.quote .inq::text').extract_first()
    item['title'] = title
    item['rating_num'] = rating_num
    item['quote'] = quote
    yield item
next_page = response.css('.next a::attr(href)').extract_first()
if next_page:
    yield scrapy.Request(url=next_page, callback=self.parse)


最后,将数据保存到CSV文件中:


scrapy crawl douban_movie_spider -o douban_movie.csv


示例二:爬取糗事百科的段子并进行分析

首先同样是新建一个项目并创建Spider:


scrapy startproject qiubai_spider
cd qiubai_spider
scrapy genspider qiubai qiushibaike.com


然后我们需要定义要爬取的数据模板:


class QiubaiItem(scrapy.Item):
author = scrapy.Field()
content = scrapy.Field()
stats_vote = scrapy.Field()
stats_comments = scrapy.Field()
stats_views = scrapy.Field()


再定义需要爬取的网址:


start_urls = ['https://www.qiushibaike.com/']


此时此刻呢,编写Spider代码:


def parse(self, response):
for detail_url in response.css('.content a::attr(href)').extract():
    yield scrapy.Request(url=response.urljoin(detail_url), callback=self.parse_content)
next_page_url = response.css('.next a::attr(href)').extract_first()
if next_page_url:
    yield scrapy.Request(url=response.urljoin(next_page_url), callback=self.parse)
def parse_content(self, response):
item = QiubaiItem()
item['author'] = response.css('.author h2::text').extract_first()
item['content'] = response.css('.content .content span::text').extract()
stats_list = response.css('.stats .number::text').extract()
item['stats_vote'] = int(stats_list[0])
item['stats_comments'] = int(stats_list[1])
item['stats_views'] = int(stats_list[2])
yield item


最后,将数据保存到MongoDB中:


scrapy crawl qiubai -o qiubai.json


以上就是土嘎嘎小编为大家整理的Python_Scrapy框架第一个入门程序示例相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!

版权声明:倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本站《原创》内容,违者将追究其法律责任。本站文章内容,部分图片来源于网络,如有侵权,请联系我们修改或者删除处理。

编辑推荐

热门文章