成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python爬蟲實戰(zhàn)(1):爬取Drupal論壇帖子列表

李文鵬 / 3058人閱讀

摘要:,引言在即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義一文我們定義了一個通用的網(wǎng)絡(luò)爬蟲類,期望通過這個項目節(jié)省程序員一半以上的時間。本文將用一個實例講解怎樣使用這個爬蟲類。我們將爬集搜客老版論壇,是一個用做的論壇。

1,引言

在《Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義》一文我們定義了一個通用的python網(wǎng)絡(luò)爬蟲類,期望通過這個項目節(jié)省程序員一半以上的時間。本文將用一個實例講解怎樣使用這個爬蟲類。我們將爬集搜客老版論壇,是一個用Drupal做的論壇。

2,技術(shù)要點(diǎn)

我們在多個文章都在說:節(jié)省程序員的時間。關(guān)鍵是省去編寫提取規(guī)則的時間,尤其是調(diào)試規(guī)則的正確性很花時間。在《1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt》演示了怎樣快速生成提取規(guī)則,接下來我們再通過GooSeeker的api接口實時獲得提取規(guī)則,對網(wǎng)頁進(jìn)行抓取。本示例主要有如下兩個技術(shù)要點(diǎn):

通過GooSeeker API實時獲取用于頁面提取的xslt

使用GooSeeker提取器gsExtractor從網(wǎng)頁上一次提取多個字段內(nèi)容。

3,python源代碼
# _*_coding:utf8_*_
# crawler_gooseeker_bbs.py
# 版本: V1.0

from urllib import request
from lxml import etree
from gooseeker import GsExtractor

# 訪問并讀取網(wǎng)頁內(nèi)容
url = "http://www.gooseeker.com/cn/forum/7"
conn = request.urlopen(url)
doc = etree.HTML(conn.read())

bbsExtra = GsExtractor() 
bbsExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e" , "gooseeker_bbs_xslt")   # 設(shè)置xslt抓取規(guī)則,第一個參數(shù)是app key,請到會員中心申請
result = bbsExtra.extract(doc)   # 調(diào)用extract方法提取所需內(nèi)容

print(str(result))

源代碼下載位置請看文章末尾的GitHub源。

4,抓取結(jié)果

運(yùn)行上節(jié)的代碼,即可在控制臺打印出提取結(jié)果,是一個xml文件,如果加上換行縮進(jìn),內(nèi)容如下圖:

5,相關(guān)文檔

1, Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義

6,集搜客GooSeeker開源代碼下載源

1, GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

7,文檔修改歷史

2016-06-06:V1.0

2016-06-06:V2.0

2016-06-06:V2.1,增加GitHub下載源

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/45481.html

相關(guān)文章

  • Python爬蟲實戰(zhàn)(2):爬取京東商品列表

    摘要:,源代碼爬取京東商品列表,以手機(jī)商品列表為例示例網(wǎng)址版本京東手機(jī)列表源代碼下載位置請看文章末尾的源。,抓取結(jié)果運(yùn)行上面的代碼,就會爬取京東手機(jī)品類頁面的所有手機(jī)型號價格等信息,并保存到本地文件京東手機(jī)列表中。 showImg(https://segmentfault.com/img/bVxXHW); 1,引言 在上一篇《python爬蟲實戰(zhàn):爬取Drupal論壇帖子列表》,爬取了一個用...

    shevy 評論0 收藏0
  • Pyspider框架 —— Python爬蟲實戰(zhàn)爬取 V2EX 網(wǎng)站帖子

    摘要:背景一個國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的??蚣軐W(xué)習(xí)時走過的一些坑錯誤我所遇到的一些錯誤首先,本爬蟲目標(biāo)使用框架爬取網(wǎng)站的帖子中的問題和內(nèi)容,然后將爬取的數(shù)據(jù)保存在本地。修飾器,表示每天會執(zhí)行一次,這樣就能抓到最新的帖子了。 背景: PySpider:一個國人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的WebUI。采用Python語言編寫,分布式架構(gòu),支持多種數(shù)據(jù)庫后端,強(qiáng)大的WebUI...

    codecraft 評論0 收藏0
  • 從零開始的Python爬蟲速成指南

    摘要:內(nèi)容如下是我們準(zhǔn)備爬的初始頁這個是解析函數(shù),如果不特別指明的話,抓回來的頁面會由這個函數(shù)進(jìn)行解析。爬取多個頁面的原理相同,注意解析翻頁的地址設(shè)定終止條件指定好對應(yīng)的頁面解析函數(shù)即可。后面的數(shù)字表示的是優(yōu)先級。指明每兩個請求之間的間隔。 序 本文主要內(nèi)容:以最短的時間寫一個最簡單的爬蟲,可以抓取論壇的帖子標(biāo)題和帖子內(nèi)容。 本文受眾:沒寫過爬蟲的萌新。 入門 0.準(zhǔn)備工作 需要準(zhǔn)備的東西:...

    gotham 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來做一些神奇好玩的事情吧

    摘要:學(xué)習(xí)筆記七數(shù)學(xué)形態(tài)學(xué)關(guān)注的是圖像中的形狀,它提供了一些方法用于檢測形狀和改變形狀。學(xué)習(xí)筆記十一尺度不變特征變換,簡稱是圖像局部特征提取的現(xiàn)代方法基于區(qū)域圖像塊的分析。本文的目的是簡明扼要地說明的編碼機(jī)制,并給出一些建議。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 開始之前,我們先來看這樣一個提問: pyth...

    lifesimple 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<