XMLFeedSpider例子

开发者奕卓技术 2022年11月15日

0 收藏 552 点赞 3,930 浏览 808 个字

 from scrapy import log
 from scrapy.contrib.spiders import XMLFeedSpider
 from myproject.items import TestItem class MySpider(XMLFeedSpider):
     name = 'example.com'
     allowed_domains = ['example.com']
     start_urls = ['http://www.example.com/feed.xml']
     iterator = 'iternodes' # This is actually unnecessary, since it's the default value
     itertag = 'item' #开始进行迭代的节点名称     def parse_node(self, response, node):
         log.msg('Hi, this is a <%s> node!: %s' % (self.itertag, ''.join(node.extract())))         item = TestItem()
         item['id'] = node.xpath('@id').extract()
         item['name'] = node.xpath('name').extract()
         item['description'] = node.xpath('description').extract()
         return item

iterator

用于确定使用哪个迭代器的string。可选项有:

'iternodes' – 一个高性能的基于正则表达式的迭代器

'html' – 使用 Selector 的迭代器。需要注意的是该迭代器使用DOM进行分析，其需要将所有的DOM载入内存，当数据量大的时候会产生问题。

'xml' – 使用 Selector 的迭代器。需要注意的是该迭代器使用DOM进行分析，其需要将所有的DOM载入内存，当数据量大的时候会产生问题。

默认值为 iternodes 。