Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義(Python2.7版本)

xuxueli 發(fā)布于2019-07-25 10:40 / 1331人閱讀

摘要：然而，和是有區(qū)別的，即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義一文的源碼無法在下使用，本文將發(fā)布一個的內(nèi)容提取器。

1. 項目背景

在Python即時網(wǎng)絡(luò)爬蟲項目啟動說明中我們討論一個數(shù)字：程序員浪費在調(diào)測內(nèi)容提取規(guī)則上的時間太多了（見上圖），從而我們發(fā)起了這個項目，把程序員從繁瑣的調(diào)測規(guī)則中解放出來，投入到更高端的數(shù)據(jù)處理工作中。

這個項目推出以后受到很大關(guān)注，因為開放源碼，大家可以在現(xiàn)成源碼基礎(chǔ)上進一步開發(fā)。然而，Python3和Python2是有區(qū)別的，《Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義》一文的源碼無法在Python2.7下使用，本文將發(fā)布一個Python2.7的內(nèi)容提取器。

2. 解決方案

為了解決這個問題，我們把影響通用性和工作效率的提取器隔離出來，描述了如下的數(shù)據(jù)處理流程圖：

圖中“可插拔提取器”必須很強的模塊化，那么關(guān)鍵的接口有：

標(biāo)準(zhǔn)化的輸入：以標(biāo)準(zhǔn)的HTML DOM對象為輸入

標(biāo)準(zhǔn)化的內(nèi)容提?。菏褂脴?biāo)準(zhǔn)的xslt模板提取網(wǎng)頁內(nèi)容

標(biāo)準(zhǔn)化的輸出：以標(biāo)準(zhǔn)的XML格式輸出從網(wǎng)頁上提取到的內(nèi)容

明確的提取器插拔接口：提取器是一個明確定義的類，通過類方法與爬蟲引擎模塊交互

3. 提取器代碼

可插拔提取器是即時網(wǎng)絡(luò)爬蟲項目的核心組件，定義成一個類： GsExtractor
適用python2.7的源代碼文件及其說明文檔請從 github 下載

使用模式是這樣的：

實例化一個GsExtractor對象

為這個對象設(shè)定xslt提取器，相當(dāng)于把這個對象配置好（使用三類setXXX()方法）

把html dom輸入給它，就能獲得xml輸出（使用extract()方法）

下面是這個GsExtractor類的源代碼(適用于Python2.7)

#!/usr/bin/python
# -*- coding: utf-8 -*-
# 模塊名: gooseeker_py2
# 類名: GsExtractor
# Version: 2.0
# 適配Python版本: 2.7
# 說明: html內(nèi)容提取器
# 功能: 使用xslt作為模板，快速提取HTML DOM中的內(nèi)容。
# released by 集搜客(http://www.gooseeker.com) on May 18, 2016
# github: https://github.com/FullerHua/jisou/core/gooseeker_py2.py

from urllib2 import urlopen
from urllib import quote
from lxml import etree
import time

class GsExtractor(object):
    def _init_(self):
        self.xslt = ""
    # 從文件讀取xslt
    def setXsltFromFile(self , xsltFilePath):
        file = open(xsltFilePath , "r")
        try:
            self.xslt = file.read()
        finally:
            file.close()
    # 從字符串獲得xslt
    def setXsltFromMem(self , xsltStr):
        self.xslt = xsltStr
    # 通過GooSeeker API接口獲得xslt
    def setXsltFromAPI(self , APIKey , theme, middle=None, bname=None):
        apiurl = "http://www.gooseeker.com/api/getextractor?key="+ APIKey +"&theme="+quote(theme)
        if (middle):
            apiurl = apiurl + "&middle="+quote(middle)
        if (bname):
            apiurl = apiurl + "&bname="+quote(bname)
        apiconn = urlopen(apiurl)
        self.xslt = apiconn.read()
    # 返回當(dāng)前xslt
    def getXslt(self):
        return self.xslt
    # 提取方法，入?yún)⑹且粋€HTML DOM對象，返回是提取結(jié)果
    def extract(self , html):
        xslt_root = etree.XML(self.xslt)
        transform = etree.XSLT(xslt_root)
        result_tree = transform(html)
        return result_tree

4. 用法示例

下面是一個示例程序，演示怎樣使用GsExtractor類提取豆瓣討論組話題。本示例有如下特征：

提取器的內(nèi)容通過GooSeeker平臺上的api獲得

保存結(jié)果文件到當(dāng)前文件夾

下面是源代碼，都可從 github 下載

# _*_coding:utf8_*_
# douban_py2.py
# 爬取豆瓣小組討論話題
# Python版本: 2.7

from lxml import etree
from gooseeker_py2 import GsExtractor
from selenium import webdriver
import time

class PhantomSpider:
    def getContent(self, url):
        browser = webdriver.PhantomJS(executable_path="C:phantomjs-2.1.1-windowsinphantomjs.exe")
        browser.get(url)
        time.sleep(3)
        html = browser.execute_script("return document.documentElement.outerHTML")
        output = etree.HTML(html)
        return output

    def saveContent(self, filepath, content):
        file_obj = open(filepath, "w")
        file_obj.write(content)
        file_obj.close()

doubanExtra = GsExtractor()   
# 下面這句調(diào)用gooseeker的api來設(shè)置xslt抓取規(guī)則
# 第一個參數(shù)是app key，請到GooSeeker會員中心申請
# 第二個參數(shù)是規(guī)則名，是通過GooSeeker的圖形化工具: 謀數(shù)臺MS 來生成的
doubanExtra.setXsltFromAPI("ffd5273e213036d812ea298922e2627b" , "豆瓣小組討論話題")  

url = "https://www.douban.com/group/haixiuzu/discussion?start="
totalpages = 5
doubanSpider = PhantomSpider()
print("爬取開始")

for pagenumber in range(1 , totalpages):
    currenturl = url + str((pagenumber-1)*25)
    print("正在爬取", currenturl)
    content = doubanSpider.getContent(currenturl)
    outputxml = doubanExtra.extract(content)
    outputfile = "result" + str(pagenumber) +".xml"
    doubanSpider.saveContent(outputfile , str(outputxml))

print("爬取結(jié)束")

提取結(jié)果如下圖所示：

5. 接下來閱讀

本文已經(jīng)說明了提取器的價值和用法，但是沒有說怎樣生成它，只有快速生成提取器才能達(dá)到節(jié)省開發(fā)者時間的目的，這個問題將在其他文章講解，請看《1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt模板》

6. 集搜客GooSeeker開源代碼下載源

GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

7. 文檔修改歷史

2016-08-05：V1.0，Python2.7下的內(nèi)容提取器類首次發(fā)布

GPU云服務(wù)器云服務(wù)器 python2.7 python2.7鏡像升級默認(rèn)python2.7為python python爬蟲項目

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/38102.html

發(fā)表評論

登陸后可評論

0條評論

xuxueli

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 1285·2023-04-25 23:22
tensorflow配置

閱讀 1682·2023-04-25 20:04
web前端和后端的區(qū)別在哪？

閱讀 2655·2021-11-22 15:24
Linux——Ubuntu使用個給力的鏡像，安裝軟件速度飛快

閱讀 2820·2021-11-11 16:54
自己動手寫一個側(cè)導(dǎo)航欄組件

閱讀 1894·2019-08-30 14:03
水平垂直居中小結(jié)

閱讀 1494·2019-08-29 16:35
多享開發(fā)微商城有哪些步驟？

閱讀 1714·2019-08-26 10:29
前端解決第三方圖片防盜鏈的辦法 - html referrer 訪問圖片資源403問題

閱讀 2684·2019-08-23 18:01

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義(Python2.7版本)

相關(guān)文章