首页 技术 正文
技术 2022年11月18日
0 收藏 567 点赞 2,998 浏览 1494 个字
scrapy.Spider的属性和方法
属性:
name:spider的名称,要求唯一
allowed_domains:允许的域名,限制爬虫的范围
start_urls:初始urls
custom_settings:个性化设置,会覆盖全局的设置
crawler:抓取器,spider将绑定到它上面
custom_settings:配置实例,包含工程中所有的配置变量
logger:日志实例,打印调试信息方法:
from_crawler(crawler, *args, **kwargs):类方法,用于创建spider
start_requests():生成初始的requests
make_requests_from_url(url):遍历urls,生成一个个request
parse(response):用来解析网页内容
log(message[,level.component]):用来记录日志,这里请使用logger属性记录日志,self.logger.info('visited success')
closed(reason):当spider关闭时调用的方法子类:
主要CrawlSpider
1:最常用的spider,用于抓取普通的网页
2:增加了两个成员
1)rules:定义了一些抓取规则--链接怎么跟踪,使用哪一个parse函数解析此链接
2)parse_start_url(response):解析初始url的相应
实例:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractorclass MySpider(CrawlSpider):
name = 'example.com'
allowed_domains = ['example.com']
start_urls = ['http://www.example.com'] rules = (
# Extract links matching 'category.php' (but not matching 'subsection.php')
# and follow links from them (since no callback means follow=True by default).
Rule(LinkExtractor(allow=('category\.php', ), deny=('subsection\.php', ))), # Extract links matching 'item.php' and parse them with the spider's method parse_item
Rule(LinkExtractor(allow=('item\.php', )), callback='parse_item'),
) def parse_item(self, response):
self.logger.info('Hi, this is an item page! %s', response.url)
item = scrapy.Item()
item['id'] = response.xpath('//td[@id="item_id"]/text()').re(r'ID: (\d+)')
item['name'] = response.xpath('//td[@id="item_name"]/text()').extract()
item['description'] = response.xpath('//td[@id="item_description"]/text()').extract()
return item
相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,105
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,582
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,429
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,200
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:7,836
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:4,919