成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python即時(shí)網(wǎng)絡(luò)爬蟲:API說明

genefy / 966人閱讀

摘要:用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中,內(nèi)容提取器是影響通用性的關(guān)鍵障礙,如果這個(gè)提取器是從獲得的,您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。,相關(guān)文檔,即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目內(nèi)容提取器的定義,集搜客開源代碼下載源,開源網(wǎng)絡(luò)爬蟲源,文檔修改歷史,

API說明——下載gsExtractor內(nèi)容提取器

1,接口名稱

下載內(nèi)容提取器

2,接口說明

如果您想編寫一個(gè)網(wǎng)絡(luò)爬蟲程序,您會(huì)發(fā)現(xiàn)大部分時(shí)間耗費(fèi)在調(diào)測網(wǎng)頁內(nèi)容提取規(guī)則上,不講正則表達(dá)式的語法如何怪異,即便使用XPath,您也得逐個(gè)編寫和調(diào)試。

如果要從一個(gè)網(wǎng)頁上提取很多字段,逐個(gè)調(diào)試XPath將是十分耗時(shí)的。通過這個(gè)接口,你可以直接獲得一個(gè)調(diào)測好的提取器腳本程序,是標(biāo)準(zhǔn)的XSLT程序,您只需針對(duì)目標(biāo)網(wǎng)頁的DOM運(yùn)行它,就能獲得XML格式的結(jié)果,所有字段一次性獲得。

這個(gè)XSLT提取器可以是您用MS謀數(shù)臺(tái)生成的,也可以是其他人共享給您的,只要您有讀權(quán)限,皆可下載使用。

用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中,內(nèi)容提取器是影響通用性的關(guān)鍵障礙,如果這個(gè)提取器是從API獲得的,您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。請(qǐng)參看GooSeeker的開源Python網(wǎng)絡(luò)爬蟲項(xiàng)目。

3,接口規(guī)范

3.1,接口地址(URL)

http://www.gooseeker.com/api/getextractor

3.2,請(qǐng)求類型(contentType)
不限

3.3,請(qǐng)求方法
HTTP GET

3.4,請(qǐng)求參數(shù)

key 必選:Yes;類型:String;說明:申請(qǐng)API時(shí)分配的AppKey

theme 必選:Yes;類型:String;說明:提取器名,就是用MS謀數(shù)臺(tái)定義的規(guī)則名

middle 必選:No;類型:String;說明:規(guī)則編號(hào),如果相同規(guī)則名下定義了多個(gè)規(guī)則,需填寫

bname 必選:No;類型:String;說明:整理箱名,如果規(guī)則含有多個(gè)整理箱,需填寫

注釋:請(qǐng)參看GooSeeker網(wǎng)絡(luò)爬蟲術(shù)語解釋:集搜客GooSeeker專有名詞解釋

3.5,返回類型(contentType)
text/xml; charset=UTF-8

3.6,返回參數(shù)
HTTP消息頭中的參數(shù),如下:

more-extractor 類型:String;說明:相同規(guī)則名下有多少個(gè)提取器。通常只在可選參數(shù)沒有填寫的時(shí)候需要關(guān)注這個(gè)參數(shù),用以提示客戶端有多個(gè)規(guī)則和整理箱,客戶端自己決定是否要在發(fā)送請(qǐng)求時(shí)攜帶明確的參數(shù)

3.7,返回錯(cuò)誤信息

消息層錯(cuò)誤以HTTP 400返回,比如,URL中的參數(shù)不符合本規(guī)范

應(yīng)用層錯(cuò)誤以HTTP 200 OK返回,具體錯(cuò)誤碼用XML文件放在消息體中,XML結(jié)構(gòu)如下:


    具體的錯(cuò)誤碼

具體的code值如下:

keyError:權(quán)限驗(yàn)證失敗
paramError:URL中傳來的參數(shù)有誤,比如,參數(shù)名稱或值不正確
empty:非錯(cuò)誤狀態(tài),而是請(qǐng)求的提取器是不存在的,比如,某個(gè)抓取規(guī)則并沒有創(chuàng)建整理箱,則返回empty

4,用法范例(python語言)

提取器名獲取參考 1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt

示例代碼:

# -*- coding: utf-8 -*-
from urllib import request

url = "http://www.gooseeker.com/api/getextractor?key=您的key&theme=您的提取器名"

resp = request.urlopen(url)
content = resp.read()
if(content):
    print(content)

接下來我會(huì)對(duì)此API進(jìn)行測試,將案例發(fā)布出來。

5,相關(guān)文檔

1, Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目: 內(nèi)容提取器的定義

6,集搜客GooSeeker開源代碼下載源

1, GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

7,文檔修改歷史

1,2016-06-22:V1.0

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/38012.html

相關(guān)文章

  • Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目: 內(nèi)容提取器的定義

    摘要:集搜客從文件讀取從字符串獲得通過接口獲得返回當(dāng)前提取方法,入?yún)⑹且粋€(gè)對(duì)象,返回是提取結(jié)果用法示例下面是一個(gè)示例程序,演示怎樣使用類提取官網(wǎng)的帖子列表。 1. 項(xiàng)目背景 在python 即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目啟動(dòng)說明中我們討論一個(gè)數(shù)字:程序員浪費(fèi)在調(diào)測內(nèi)容提取規(guī)則上的時(shí)間,從而我們發(fā)起了這個(gè)項(xiàng)目,把程序員從繁瑣的調(diào)測規(guī)則中解放出來,投入到更高端的數(shù)據(jù)處理工作中。 2. 解決方案 為了解決這個(gè)問...

    KunMinX 評(píng)論0 收藏0
  • Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目: 內(nèi)容提取器的定義(Python2.7版本)

    摘要:然而,和是有區(qū)別的,即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目內(nèi)容提取器的定義一文的源碼無法在下使用,本文將發(fā)布一個(gè)的內(nèi)容提取器。 1. 項(xiàng)目背景 showImg(https://segmentfault.com/img/bVz5hX); 在Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目啟動(dòng)說明中我們討論一個(gè)數(shù)字:程序員浪費(fèi)在調(diào)測內(nèi)容提取規(guī)則上的時(shí)間太多了(見上圖),從而我們發(fā)起了這個(gè)項(xiàng)目,把程序員從繁瑣的調(diào)測規(guī)則中解放出來,投...

    xuxueli 評(píng)論0 收藏0
  • API例子:用Python驅(qū)動(dòng)Firefox采集網(wǎng)頁數(shù)據(jù)

    摘要:開源即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目將與基于的異步網(wǎng)絡(luò)框架集成,所以本例將使用采集淘寶這種含有大量代碼的網(wǎng)頁數(shù)據(jù),但是要注意本例一個(gè)嚴(yán)重缺陷用加載網(wǎng)頁的過程發(fā)生在中,破壞了的架構(gòu)原則。 showImg(https://segmentfault.com/img/bVyzAX); 1,引言 本文講解怎樣用Python驅(qū)動(dòng)Firefox瀏覽器寫一個(gè)簡易的網(wǎng)頁數(shù)據(jù)采集器。開源Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目將與S...

    Harriet666 評(píng)論0 收藏0
  • Python爬蟲實(shí)戰(zhàn)(4):豆瓣小組話題數(shù)據(jù)采集—?jiǎng)討B(tài)網(wǎng)頁

    摘要:,引言注釋上一篇爬蟲實(shí)戰(zhàn)安居客房產(chǎn)經(jīng)紀(jì)人信息采集,訪問的網(wǎng)頁是靜態(tài)網(wǎng)頁,有朋友模仿那個(gè)實(shí)戰(zhàn)來采集動(dòng)態(tài)加載豆瓣小組的網(wǎng)頁,結(jié)果不成功。 showImg(https://segmentfault.com/img/bVzdNZ); 1, 引言 注釋:上一篇《Python爬蟲實(shí)戰(zhàn)(3):安居客房產(chǎn)經(jīng)紀(jì)人信息采集》,訪問的網(wǎng)頁是靜態(tài)網(wǎng)頁,有朋友模仿那個(gè)實(shí)戰(zhàn)來采集動(dòng)態(tài)加載豆瓣小組的網(wǎng)頁,結(jié)果不成功...

    blastz 評(píng)論0 收藏0
  • Python爬蟲實(shí)戰(zhàn)(3):安居客房產(chǎn)經(jīng)紀(jì)人信息采集

    摘要:為了使用各種應(yīng)用場景,該項(xiàng)目的整個(gè)網(wǎng)絡(luò)爬蟲產(chǎn)品線包含了四類產(chǎn)品,如下圖所示本實(shí)戰(zhàn)是上圖中的獨(dú)立爬蟲的一個(gè)實(shí)例,以采集安居客房產(chǎn)經(jīng)紀(jì)人信息為例,記錄整個(gè)采集流程,包括和依賴庫的安裝,即便是初學(xué)者,也可以跟著文章內(nèi)容成功地完成運(yùn)行。 showImg(https://segmentfault.com/img/bVy2Iy); 1, 引言 Python開源網(wǎng)絡(luò)爬蟲項(xiàng)目啟動(dòng)之初,我們就把網(wǎng)絡(luò)爬蟲...

    馬忠志 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<