Python爬蟲實戰(zhàn)（1）：爬取Drupal論壇帖子列表

李文鵬發(fā)布于2019-07-31 12:21 / 3058人閱讀

摘要：，引言在即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義一文我們定義了一個通用的網(wǎng)絡(luò)爬蟲類，期望通過這個項目節(jié)省程序員一半以上的時間。本文將用一個實例講解怎樣使用這個爬蟲類。我們將爬集搜客老版論壇，是一個用做的論壇。

1，引言

在《Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義》一文我們定義了一個通用的python網(wǎng)絡(luò)爬蟲類，期望通過這個項目節(jié)省程序員一半以上的時間。本文將用一個實例講解怎樣使用這個爬蟲類。我們將爬集搜客老版論壇，是一個用Drupal做的論壇。

2，技術(shù)要點(diǎn)

我們在多個文章都在說：節(jié)省程序員的時間。關(guān)鍵是省去編寫提取規(guī)則的時間，尤其是調(diào)試規(guī)則的正確性很花時間。在《1分鐘快速生成用于網(wǎng)頁內(nèi)容提取的xslt》演示了怎樣快速生成提取規(guī)則，接下來我們再通過GooSeeker的api接口實時獲得提取規(guī)則，對網(wǎng)頁進(jìn)行抓取。本示例主要有如下兩個技術(shù)要點(diǎn)：

通過GooSeeker API實時獲取用于頁面提取的xslt

使用GooSeeker提取器gsExtractor從網(wǎng)頁上一次提取多個字段內(nèi)容。

3，python源代碼

# _*_coding:utf8_*_
# crawler_gooseeker_bbs.py
# 版本: V1.0

from urllib import request
from lxml import etree
from gooseeker import GsExtractor

# 訪問并讀取網(wǎng)頁內(nèi)容
url = "http://www.gooseeker.com/cn/forum/7"
conn = request.urlopen(url)
doc = etree.HTML(conn.read())

bbsExtra = GsExtractor() 
bbsExtra.setXsltFromAPI("31d24931e043e2d5364d03b8ff9cc77e" , "gooseeker_bbs_xslt")   # 設(shè)置xslt抓取規(guī)則，第一個參數(shù)是app key，請到會員中心申請
result = bbsExtra.extract(doc)   # 調(diào)用extract方法提取所需內(nèi)容

print(str(result))

源代碼下載位置請看文章末尾的GitHub源。

4，抓取結(jié)果

運(yùn)行上節(jié)的代碼，即可在控制臺打印出提取結(jié)果，是一個xml文件，如果加上換行縮進(jìn)，內(nèi)容如下圖：

5，相關(guān)文檔

1， Python即時網(wǎng)絡(luò)爬蟲項目: 內(nèi)容提取器的定義

6，集搜客GooSeeker開源代碼下載源

1， GooSeeker開源Python網(wǎng)絡(luò)爬蟲GitHub源

7，文檔修改歷史

2016-06-06：V1.0

2016-06-06：V2.0

2016-06-06：V2.1，增加GitHub下載源

云服務(wù)器 GPU云服務(wù)器 python爬蟲實戰(zhàn) 帖子列表 python3爬蟲實戰(zhàn) 論壇帖子html教程

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/45481.html

發(fā)表評論

登陸后可評論

0條評論

李文鵬

男|高級講師

我要關(guān)注我要私信

TA的文章

Java設(shè)計模式之（五）——代理模式

閱讀 483·2021-11-22 12:05
Python數(shù)據(jù)分析入門：比特幣價格漲幅趨勢分布

閱讀 1543·2021-11-17 09:33
【正點(diǎn)原子FPGA連載】第三十六章雙路高速DA實驗 -摘自【正點(diǎn)原子】新起點(diǎn)之FPGA開發(fā)指南_V2

閱讀 3589·2021-11-11 16:54
Vultr第19個機(jī)房墨西哥城數(shù)據(jù)中心路由去程回程和綜合速度測試

閱讀 2682·2021-10-14 09:49
5G/NR 網(wǎng)絡(luò)切片之NSSAI包含模式

閱讀 4060·2021-09-06 15:01
【CSS】BFC - 塊級格式化上下文

閱讀 1833·2019-08-29 17:23
論一種基于JS技術(shù)的WEB前端動態(tài)生成框圖的方法

閱讀 706·2019-08-29 14:09
解剖CSS布局原理

閱讀 724·2019-08-29 12:28

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲實戰(zhàn)（1）：爬取Drupal論壇帖子列表

相關(guān)文章

Python爬蟲實戰(zhàn)（2）：爬取京東商品列表

**Pyspider框架 —— Python爬蟲實戰(zhàn)之爬取 V2EX 網(wǎng)站帖子**

**從零開始的Python爬蟲速成指南**

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

**SegmentFault 技術(shù)周刊 Vol.30 - 學(xué)習(xí) Python 來做一些神奇好玩的事情吧**

發(fā)表評論

0條評論

李文鵬

男|高級講師

TA的文章

Java設(shè)計模式之（五）——代理模式

Python數(shù)據(jù)分析入門：比特幣價格漲幅趨勢分布

【正點(diǎn)原子FPGA連載】第三十六章雙路高速DA實驗 -摘自【正點(diǎn)原子】新起點(diǎn)之FPGA開發(fā)指南_V2

Vultr第19個機(jī)房墨西哥城數(shù)據(jù)中心路由去程回程和綜合速度測試

5G/NR 網(wǎng)絡(luò)切片之NSSAI包含模式

【CSS】BFC - 塊級格式化上下文

論一種基于JS技術(shù)的WEB前端動態(tài)生成框圖的方法

解剖CSS布局原理

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲實戰(zhàn)（1）：爬取Drupal論壇帖子列表

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！