链接去重

万维网是一个巨大的星型结构,里面的超链接错综复杂,大部分网站也是如此,大部分链接之间都存在循环,爬虫在爬取过程中,如果不做控制,很容易就陷入死循环。

最好的控制就是对处理过的链接做标记,进行去重处理。一方面大部分情况下处理过的链接不需要再处理一次,另一方面也可以避免爬虫陷入死循环。

神箭手链接去重

神箭手的链接去重是整合在平台内部的,对开发者是透明的。但是开发者需要了解以下去重规则。

去重方式

对于GET请求的链接,平台使用链接本身做去重。需要注意的是,平台不会对链接中的#做任何处理,http://www.baidu.com/http://www.baidu.com/#是两个不同的链接。

对于POST请求的链接,平台使用链接+参数的方式做去重。也就是说,对于同一个链接,如果POST的参数不一样,平台会认为是两个不同的链接。

注意:HTTP的header不会作为去重的依据