链接类型

一般来说,不同的类型链接承载了不同的网页内容,比如淘宝某店铺首页的链接https://shop112331573.taobao.com/,某个宝贝的链接https://item.taobao.com/item.htm?id=56179748020,这些链接都有很明显的规律,而我们一般只关心最终承载数据的网页。

为了加快爬虫的爬取效率,我们将网页链接进行了分类,入口页、帮助页和内容页,以便爬虫能尽快地找到内容页进行爬取。

入口页

我们也叫scanUrl,这种网页一般作为爬虫的入口。

帮助页

我们也叫helperUrl,这种网页一般包含大量的内容页,多数情况下是一个内容列表,所以我们也叫列表页,主要用途是帮助发现内容页。

内容页

我们也叫contentUrl,这种网页承载了我们关心的数据,神箭手爬虫只在这种网页上做数据抽取。对于需要的部分数据在列表页上,我们通过urlContext来解决。对于所需的数据全部在列表页,这种情况我们叫单页面多数据,后面会有专门的章节做介绍。