定时启动爬虫

接口说明

此接口用于定时启动已创建的采集爬虫, 请求地址如下所示:

"https://www.shenjian.io/rest/crawler/start"

HTTP请求方式: POST

HTTP请求url: https://www.shenjian.io/rest/crawler/start?user_key=用户key&timestamp=秒级时间戳&sign=签名&crawler_id=爬虫ID&node=节点个数

POST请求参数格式: application/x-www-form-urlencoded

URL参数说明

注意: 请求参数包括通用请求参数和下表中的参数

参数 是否必填 说明
crawler_id 爬虫ID
node 设置爬虫使用的节点个数, 默认值是”1”. 如果设置的节点个数超过您所拥有的节点个数, 无法启动爬虫

POST请求参数说明

参数 是否必填 说明
follow_new 爬取新数据
duplicate 遇到已经爬过的数据时, 需要进行的处理
follow_change 更新老数据
frequency 爬取频率
once_date_start 启动日期
time_start 启动时间
time_end 停止时间
date_start 有效期起始日期
date_end 有效期结束日期
weekly_day[] 星期
realtime_interval 间隔时间

要定时启动爬虫, 需要配置两部分POST请求参数: “定时爬取模式参数”, “爬取频率参数”.

注意:

1. 如果POST请求参数未填写, 或未设置 “定时爬取模式参数”, 或未设置 “爬取频率参数”, 则神箭手会正常启动爬虫, 不会开启定时爬取;

2. 如果设置 “定时爬取模式参数”, 且 “爬取频率” 参数中只设置 “frequency”, 则神箭手会将其他参数设为默认值;

3. 有些参数只有您的神箭手套餐满足相应等级后才可正常使用, 否则, 发送的HTTP请求会失败, 点此升级神箭手套餐;

4. 如果您发送的HTTP请求失败了, 神箭手会在HTTP请求返回的 “reason” 字段中告诉您失败的原因.

一 定时爬取模式参数

定时爬取模式有两种: “爬取新数据”“更新老数据”, 两种模式 必须选择一种或两种都选择, 如下表所示:

模式 取值 说明
follow_new 0或1 爬取新数据, 默认值是”1”, 值为0时表示不使用该模式
follow_change 0或1 更新老数据, 默认值是”0”, 值为1时表示使用该模式

选择 “爬取新数据” 模式后, 可以设置 “duplicate”参数, 在 “遇到已经爬过的数据时” 选择 “跳过继续往后爬取”(“duplicate”的值为”1”)或 “立即停止”(“duplicate”的值为”0”)或 “更新此数据”(“duplicate”的值为”3”).

注意: “duplicate” 参数的默认值是”1”.

POST请求完整示栗:

POST /rest/crawler/start?user_key=OTM0Y2NiNj-934ccb671d
&timestamp=1490166100&sign=057DD7968772B1519AD256D2B59E2185
&crawler_id=510027&node=1 HTTP/1.1
Host: www.shenjian.io
Content-Type: application/x-www-form-urlencoded

follow_new=1&duplicate=1&follow_change=1

二 爬取频率参数

爬取频率(“frequency”)有四种, 分别是Once(一次), EveryDay(每天), Week(每周)RealTime(实时).


Once(一次)


爬取频率(“frequency”)值为 “Once” 时, 需要额外设置的参数如下表所示:

参数 说明
once_date_start 启动日期, 格式: 秒级时间戳, 默认值是”爬虫启动当天零点的秒级时间戳”(如”1490976000”), 可自行设置启动日期
time_start 启动时间, 取值范围: 0-23之间的正整数, 默认值是”爬虫启动的时间”(如”8”, 表示爬虫是8点启动的), 可自行设置启动时间
time_end 停止时间, 取值范围: 0-23之间的正整数, 默认值是”爬取完成”(无需设置), 可自行设置停止时间, 如”20”

POST请求完整示栗:

POST /rest/crawler/start?user_key=OTM0Y2NiNj-934ccb671d
&timestamp=1490166100&sign=057DD7968772B1519AD256D2B59E2185
&crawler_id=510027&node=1 HTTP/1.1
Host: www.shenjian.io
Content-Type: application/x-www-form-urlencoded

follow_new=1&frequency=Once&once_date_start=1491026661
&time_start=10&time_end=22


EveryDay(每天)


爬取频率(“frequency”)值为 “EveryDay” 时, 需要额外设置的参数如下表所示:

参数 说明
date_start 有效期起始日期, 格式: 秒级时间戳, 默认值是”爬虫启动当天零点的秒级时间戳”(如”1490976000”), 可自行设置启动日期
date_end 有效期结束日期, 格式: 秒级时间戳, 默认值是”爬虫启动当天零点的秒级时间戳”(如”1490976000”), 可自行设置启动日期
time_start 启动时间, 取值范围: 0-23之间的正整数, 默认值是”爬虫启动的时间”(如”8”, 表示爬虫是8点启动的), 可自行设置启动时间
time_end 停止时间, 取值范围: 0-23之间的正整数, 默认值是”爬取完成”(无需设置), 可自行设置停止时间, 如”20”

注意: 如果不设置 “date_start”“date_end” 两个参数, 则有效期的值为 “不限期限”.

POST请求完整示栗:

POST /rest/crawler/start?user_key=OTM0Y2NiNj-934ccb671d
&timestamp=1490166100&sign=057DD7968772B1519AD256D2B59E2185
&crawler_id=510027&node=1 HTTP/1.1
Host: www.shenjian.io
Content-Type: application/x-www-form-urlencoded

follow_new=1&frequency=EveryDay&date_start=1490976000
&date_end=1491753600&time_start=10&time_end=22


Week(每周)


爬取频率(“frequency”)值为 “Week” 时, 需要额外设置的参数如下表所示:

参数 说明
date_start 有效期起始日期, 格式: 秒级时间戳, 默认值是”爬虫启动当天零点的秒级时间戳”(如”1490976000”), 可自行设置启动日期
date_end 有效期结束日期, 格式: 秒级时间戳, 默认值是”爬虫启动当天零点的秒级时间戳”(如”1490976000”), 可自行设置启动日期
weekly_day[] 星期, 取值范围: 1-7之间的正整数, 默认值是”星期一到星期日”, 可自行设置星期, 具体取值请参看下面注意事项
time_start 启动时间, 取值范围: 0-23之间的正整数, 默认值是”爬虫启动的时间”(如”8”, 表示爬虫是8点启动的), 可自行设置启动时间
time_end 停止时间, 取值范围: 0-23之间的正整数, 默认值是”爬取完成”(无需设置), 可自行设置停止时间, 如”20”

注意:

1. 如果不设置 “date_start”“date_end” 两个参数, 则有效期的值为 “不限期限”;

2. “weekly_day[]” 的取值由选择的 “星期” 决定, 选择”星期日”值为”1”, “星期一”值为”2”, “星期二”值为”3”, “星期三”值为”4”, “星期四”值为”5”, “星期五”值为”6”, “星期六”值为”7”.

POST请求完整示栗:

POST /rest/crawler/start?user_key=OTM0Y2NiNj-934ccb671d
&timestamp=1490166100&sign=057DD7968772B1519AD256D2B59E2185
&crawler_id=510027&node=1 HTTP/1.1
Host: www.shenjian.io
Content-Type: application/x-www-form-urlencoded

follow_new=1&frequency=Week&date_start=1490976000&date_end=1491753600
&weekly_day%5B%5D=1&weekly_day%5B%5D=2&weekly_day%5B%5D=3
&weekly_day%5B%5D=4&weekly_day%5B%5D=5&weekly_day%5B%5D=6
&weekly_day%5B%5D=7&time_start=10&time_end=22


RealTime(实时)


爬取频率(“frequency”)值为 “RealTime” 时, 需要额外设置的参数如下表所示:

参数 说明
date_start 有效期起始日期, 格式: 秒级时间戳, 默认值是”爬虫启动当天零点的秒级时间戳”(如”1490976000”), 可自行设置启动日期
date_end 有效期结束日期, 格式: 秒级时间戳, 默认值是”爬虫启动当天零点的秒级时间戳”(如”1490976000”), 可自行设置启动日期
realtime_interval 间隔时间, 取值范围: 1-5之间的正整数, 无默认值, 可自行选择间隔时间, 具体取值请参看下面注意事项

注意:

1. 如果不设置 “date_start”“date_end” 两个参数, 则有效期的值为 “不限期限”;

2. “realtime_interval” 的取值由 “间隔时间” 的长短决定, 间隔时间为”10分钟”值为”1”, “30分钟”值为”2”, “1个小时”值为”3”, “6个小时”值为”4”, “12个小时”值为”5”.

POST请求完整示栗:

POST /rest/crawler/start?user_key=OTM0Y2NiNj-934ccb671d
&timestamp=1490166100&sign=057DD7968772B1519AD256D2B59E2185
&crawler_id=510027&node=1 HTTP/1.1
Host: www.shenjian.io
Content-Type: application/x-www-form-urlencoded

follow_new=1&frequency=RealTime&date_start=1490976000
&date_end=1491753600&realtime_interval=3


点此查看返回参数说明, 返回码对照表, 爬虫状态码对照表, 接口调用成功示栗, 接口调用失败示栗