CrawlSpider是Scrapy框架中的一种特殊爬虫类,专门用于爬取网站并遵循链接,它通过定义规则(Rule)来自动提取和跟进网页中的链接,从而实现对整个网站的遍历,下面将详细讲解CrawlSpider的使用方法及其相关参数,并通过一个实战案例展示其应用。
CrawlSpider继承自Scrapy的Spider类,但增加了一些独特的功能,最显著的功能是LinkExtractor链接提取器,它可以自动从抓取到的页面中提取符合特定规则的链接,并将这些链接作为新的请求发送出去,这种方式使得CrawlSpider非常适合用于需要遍历整个网站或特定部分的场景。
要创建一个CrawlSpider,可以使用以下命令:
scrapy genspider -t crawl [爬虫名字] [域名]
要创建一个名为tencent
的CrawlSpider,目标网站为tencent.com
,可以执行:
scrapy genspider -t crawl tencent tencent.com
参数 | 说明 |
allow | 允许提取的URL正则表达式,如果为空则匹配所有链接。 |
deny | 禁止提取的URL正则表达式,优先级高于allow。 |
allow_domains | 允许提取的域名列表。 |
deny_domains | 禁止提取的域名列表。 |
restrict_xpaths | 使用XPath表达式过滤链接。 |
tags | 要提取链接的HTML标签,默认为('a','area') 。 |
attrs | 要提取的属性,默认为('href') 。 |
canonicalize | 是否规范化URL,默认为True。 |
unique | 是否去重,默认为True。 |
process_value | 处理提取到的链接值的回调函数。 |
参数 | 说明 |
link_extractor | 一个LinkExtractor对象,用于定义需要提取的链接。 |
callback | 满足规则的URL应调用的回调函数,注意不要使用parse作为回调函数。 |
follow | 布尔值,指定是否需要跟进链接,如果callback为None,默认为True。 |
process_links | 从link_extractor获取到链接后调用的函数,主要用于过滤链接。 |
process_request | 每个请求被提取时调用的函数,用于过滤请求。 |
步骤1:创建爬虫文件
使用命令:
scrapy genspider -t crawl tthr tencent.com
步骤2:编写爬虫代码
import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from tencenthr.items import TtItem class TthrSpider(CrawlSpider): name = 'tthr' allowed_domains = ['tencent.com'] start_urls = ['https://hr.tencent.com/position.php'] rules = ( Rule(LinkExtractor(allow=r'position_detail.php?id=d+&keywords=&tid=0&lid=0'), callback='parse_item'), Rule(LinkExtractor(allow=r'position.php?&start=d+#a'), follow=True) ) def parse_item(self, response): item = TtItem() item['title'] = response.xpath('//h1/text()').get() item['company'] = '腾讯' item['salary'] = response.xpath('//span[@class="salary"]/text()').get() yield item
步骤3:运行爬虫
scrapy crawl tthr
通过以上步骤,我们成功创建了一个CrawlSpider,并使用LinkExtractor和Rule实现了对腾讯招聘信息的爬取,CrawlSpider的强大之处在于它能够自动提取和跟进网页中的链接,从而大大简化了爬虫的编写过程,希望本文能帮助你更好地理解和使用CrawlSpider,提升你的爬虫开发效率。
Q1: CrawlSpider与普通Spider有什么区别?
A1: CrawlSpider是Spider的一个子类,专门用于爬取网站并遵循链接,它通过定义规则(Rule)来自动提取和跟进网页中的链接,而普通Spider则需要手动编写代码来实现这一功能。
Q2: 如何在CrawlSpider中避免重复爬取相同的URL?
A2: 在LinkExtractor中设置unique=True
可以确保只提取唯一的URL,从而避免重复爬取相同的URL,还可以通过设置deny_domains
和deny
参数来进一步过滤不需要的链接。