Python SDK

神箭手Python SDK 封装了神箭手rest接口,让您可以通过Python代码访问神箭手rest接口。主要功能有获取用户信息,获取应用列表,爬虫控制等。
此 Python SDK 适用于2、3版本。

安装

有两种安装方式安装SDK:

  • pip方式安装
  • 源码方式安装

pip方式

通过pip安装,在命令行中运行:

pip install shenjian

源码方式

通过源码安装,下载源码后,进入项目根目录,执行命令:

sudo python setup.py install

初始化

使用SDK 前,您需要获取 user_key 和 user_secret。在用户中心中可以查看

获取用户信息

首先先创建服务类shenjian.Service

import shenjian
service = shenjian.Service(user_key,user_secret)

获得用户余额

result = service.get_money_info()

获得节点信息

result = service.get_node_info()

获取应用列表

获取应用列表也是shenjian.Service类的功能之一

获得所有类型的应用列表

result = service.get_app_list(page=1, page_size=30)

获得爬虫列表

result = service.get_crawler_list(page=1, page_size=30)

爬虫控制

首先先创建爬虫类shenjian.Crawler

crawler = shenjian.Crawler(user_key,user_secret,appID)

启动爬虫

  • 用2个节点启动爬虫

    result = crawler.start(2)
  • dup_type参数是爬虫爬到重复数据时的处理方式,dup_type=’unspawn’是停止该爬虫,dup_type=’change’是更新此数据,跳过继续往后爬dup_type=’skip’,默认为skip

    result = crawler.start(dup_type='unspawn')
  • change_type参数是当爬取到重复数据,对原数据的处理方式。change_type=’insert’是保留原数据,插入一条新版本数据。change_type=’update’是覆盖原数据,默认为insert

    result = crawler.start(change_type='update')
  • 定时启动爬虫,该例子为每天爬取一次,启动时间为上午十点,爬取结束时间为晚上11点,更多定时设置与参数详见文档

result = crawler.start(timer_type='daily',time_start='10:00',time_end='23:00')

停止爬虫

result = crawler.stop()

暂停爬虫

result = crawler.pause()

继续爬虫(并设置运行的节点是3个)

result = crawler.resume(3)

增加一个运行节点

result = crawler.add_node(1)

减少一个运行节点

result = crawler.reduce_node(1)

修改爬虫名称信息

result = crawler.edit(app_name="新的名称",app_info="新的info")

设置爬虫代理为个人优质版代理IP,查看更多代理种类

result = crawler.config_proxy(shenjian.proxy_type.PROXY_TYPE_BETTER)

开启文件云托管,查看更多托管类型

result = crawler.config_host(shenjian.host_type.HOST_TYPE_SHENJIANSHOU)

设置爬虫自定义项(不同的爬虫自定义项不同,传递一个dict,具体参数请到相应的爬虫设置中查看)

params = {}
params["crawlerStore"] = True
params["pageNum"] = 10
params["productUrl"] = "https://item.jd.com/3724805.html"
params["keywords"] = ["男装","女装"]
result = crawler.config_custom(params)

获取爬虫状态

result = crawler.get_status()

获取爬虫速率

result = crawler.get_speed()

获取爬虫对应的数据源信息

result = crawler.get_source()

获取爬虫的Webhook设置

result = crawler.get_webhook()

删除爬虫的Webhook设置

result = crawler.delete_webhook()

修改爬虫的Webhook设置(设置为新增数据发送webhook,更新数据不发送,自定义数据不发送)

result = crawler.set_webhook(self,"http://www.baidu.com",data_new=True,data_updated=False,msg_custom=False)

获取爬虫的自动发布状态

result = crawler.get_publish_status()

启动自动发布

result = crawler.start_publish(publish_id)

停止自动发布

result = crawler.stop_publish()

许可证

Copyright (c) 2018 快忆科技

基于 Apache 协议发布: