Python即時(shí)網(wǎng)絡(luò)爬蟲：API說明

genefy 發(fā)布于2019-07-25 10:32 / 966人閱讀

摘要：用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中，內(nèi)容提取器是影響通用性的關(guān)鍵障礙，如果這個(gè)提取器是從獲得的，您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。，相關(guān)文檔，即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目內(nèi)容提取器的定義，集搜客開源代碼下載源，開源網(wǎng)絡(luò)爬蟲源，文檔修改歷史，

API說明——下載gsExtractor內(nèi)容提取器

1，接口名稱

下載內(nèi)容提取器

2，接口說明

如果您想編寫一個(gè)網(wǎng)絡(luò)爬蟲程序，您會(huì)發(fā)現(xiàn)大部分時(shí)間耗費(fèi)在調(diào)測網(wǎng)頁內(nèi)容提取規(guī)則上，不講正則表達(dá)式的語法如何怪異，即便使用XPath，您也得逐個(gè)編寫和調(diào)試。

如果要從一個(gè)網(wǎng)頁上提取很多字段，逐個(gè)調(diào)試XPath將是十分耗時(shí)的。通過這個(gè)接口，你可以直接獲得一個(gè)調(diào)測好的提取器腳本程序，是標(biāo)準(zhǔn)的XSLT程序，您只需針對(duì)目標(biāo)網(wǎng)頁的DOM運(yùn)行它，就能獲得XML格式的結(jié)果，所有字段一次性獲得。

這個(gè)XSLT提取器可以是您用MS謀數(shù)臺(tái)生成的，也可以是其他人共享給您的，只要您有讀權(quán)限，皆可下載使用。

用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中，內(nèi)容提取器是影響通用性的關(guān)鍵障礙，如果這個(gè)提取器是從API獲得的，您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。請(qǐng)參看GooSeeker的開源Python網(wǎng)絡(luò)爬蟲項(xiàng)目。

3，接口規(guī)范

3.1，接口地址（URL）

http://www.gooseeker.com/api/getextractor

3.2，請(qǐng)求類型（contentType）
不限

3.3，請(qǐng)求方法
HTTP GET

3.4，請(qǐng)求參數(shù)

key 必選：Yes；類型：String；說明：申請(qǐng)API時(shí)分配的AppKey

theme 必選：Yes；類型：String；說明：提取器名，就是用MS謀數(shù)臺(tái)定義的規(guī)則名

middle 必選：No；類型：String；說明：規(guī)則編號(hào)，如果相同規(guī)則名下定義了多個(gè)規(guī)則，需填寫

bname 必選：No；類型：String；說明：整理箱名，如果規(guī)則含有多個(gè)整理箱，需填寫

注釋：請(qǐng)參看GooSeeker網(wǎng)絡(luò)爬蟲術(shù)語解釋：集搜客GooSeeker專有名詞解釋

3.5，返回類型（contentType）
text/xml; charset=UTF-8

3.6，返回參數(shù)
HTTP消息頭中的參數(shù)，如下：

more-extractor 類型：String；說明：相同規(guī)則名下有多少個(gè)提取器。通常只在可選參數(shù)沒有填寫的時(shí)候需要關(guān)注這個(gè)參數(shù)，用以提示客戶端有多個(gè)規(guī)則和整理箱，客戶端自己決定是否要在發(fā)送請(qǐng)求時(shí)攜帶明確的參數(shù)

3.7，返回錯(cuò)誤信息

消息層錯(cuò)誤以HTTP 400返回，比如，URL中的參數(shù)不符合本規(guī)范

應(yīng)用層錯(cuò)誤以HTTP 200 OK返回，具體錯(cuò)誤碼用XML文件放在消息體中，XML結(jié)構(gòu)如下：


    具體的錯(cuò)誤碼

具體的code值如下：

keyError：權(quán)限驗(yàn)證失敗
paramError：URL中傳來的參數(shù)有誤，比如，參數(shù)名稱或值不正確
empty：非錯(cuò)誤狀態(tài)，而是請(qǐng)求的提取器是不存在的，比如，某個(gè)抓取規(guī)則并沒有創(chuàng)建整理箱，則返回empty

4，用法范例（python語言）

提取器名獲取參考 1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt

示例代碼：

# -*- coding: utf-8 -*-
from urllib import request

url = "http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名"

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

接下來我會(huì)對(duì)此API進(jìn)行測試，將案例發(fā)布出來。

5，相關(guān)文檔

1， Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目: 內(nèi)容提取器的定義

6，集搜客GooSeeker開源代碼下載源

1， GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

7，文檔修改歷史

1，2016-06-22：V1.0

GPU云服務(wù)器云服務(wù)器即時(shí)消息api 即時(shí)通話api 即時(shí)通訊api 即時(shí)通信api

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/38012.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

genefy

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Java軟件架構(gòu)師需要掌握的開源工具

閱讀 2980·2021-11-25 09:43
基于javaweb+jsp的新生報(bào)道管理系統(tǒng)

閱讀 3358·2021-11-24 09:39
聯(lián)通送的云主機(jī)可以做什么-購買了云主機(jī)應(yīng)該如何管理，都該做什么？

閱讀 2875·2021-09-22 15:59
Hostio ：荷蘭VPS，AMD平臺(tái)超高性能平臺(tái)，1-10Gbps大帶寬/2核2G內(nèi)存+5T大流量

閱讀 2283·2021-09-13 10:24
‘純css實(shí)現(xiàn)Material Design中的水滴動(dòng)畫按鈕’的js體驗(yàn)優(yōu)化

閱讀 536·2019-08-29 17:02
深入理解ES6之《改進(jìn)的數(shù)組功能》

閱讀 2129·2019-08-29 13:23
CSS盒子模型中外邊距（margin）折疊詳解

閱讀 3086·2019-08-29 13:06
2017拼多多前端筆試

閱讀 3571·2019-08-29 13:04

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Python即時(shí)網(wǎng)絡(luò)爬蟲：API說明

相關(guān)文章

Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目: 內(nèi)容提取器的定義

Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目: 內(nèi)容提取器的定義(Python2.7版本)

API例子：用Python驅(qū)動(dòng)Firefox采集網(wǎng)頁數(shù)據(jù)

Python爬蟲實(shí)戰(zhàn)（4）：豆瓣小組話題數(shù)據(jù)采集—?jiǎng)討B(tài)網(wǎng)頁

Python爬蟲實(shí)戰(zhàn)（3）：安居客房產(chǎn)經(jīng)紀(jì)人信息采集

發(fā)表評(píng)論

0條評(píng)論

genefy

男|高級(jí)講師

TA的文章

Java軟件架構(gòu)師需要掌握的開源工具

基于javaweb+jsp的新生報(bào)道管理系統(tǒng)

聯(lián)通送的云主機(jī)可以做什么-購買了云主機(jī)應(yīng)該如何管理，都該做什么？

Hostio ：荷蘭VPS，AMD平臺(tái)超高性能平臺(tái)，1-10Gbps大帶寬/2核2G內(nèi)存+5T大流量

‘純css實(shí)現(xiàn)Material Design中的水滴動(dòng)畫按鈕’的js體驗(yàn)優(yōu)化

深入理解ES6之《改進(jìn)的數(shù)組功能》

CSS盒子模型中外邊距（margin）折疊詳解

2017拼多多前端筆試

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Python即時(shí)網(wǎng)絡(luò)爬蟲：API說明

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！