Python爬蟲案例：抓取豆瓣編程類高評分書籍

SunZhaopeng 發(fā)布于2019-07-30 18:03 / 1927人閱讀

摘要：本文將通過來爬取豆瓣編程類評分大于的書籍。下圖是最終的結(jié)果下面進入正題一采集源分析首先我們找到豆瓣的編程類書籍網(wǎng)址編程進入網(wǎng)址之后我們翻到最下面的分頁導(dǎo)航通過分析分頁地址我們可以得出偏移量這個地址則是我們要采集的內(nèi)容。

對于很多正在學(xué)習(xí)計算機的朋友來說，選擇合適的學(xué)習(xí)材料是非常重要的。

本文將通過 Python 來爬取豆瓣編程類評分大于 9.0 的書籍。

此案例很適合入門爬蟲的朋友學(xué)習(xí)，總共也就 3 個函數(shù)。

下圖是最終的結(jié)果：

下面進入正題：

一、采集源分析：

首先我們找到豆瓣的編程類書籍網(wǎng)址：

https://book.douban.com/tag/編程

進入網(wǎng)址之后我們翻到最下面的分頁導(dǎo)航：

通過分析分頁地址我們可以得出：

https://book.douban.com/tag/%...{偏移量}&type=T

這個地址則是我們要采集的內(nèi)容。第一頁 start = 0，第二頁 start = 20 ... 以此類推。

找到了要采集的 URL 之后，接下來就是分析我們真正需要的數(shù)據(jù)在 HTML 文檔中的位置。

F12 打開控制臺發(fā)現(xiàn)，這些 li 標(biāo)簽正是我們的目標(biāo)內(nèi)容。

而書名、評論、評分分別對應(yīng)li 下面的 h2 標(biāo)簽、class 為 rating_nums 的 span 標(biāo)簽， class 為 pl 的 span 標(biāo)簽。

見下圖：

有了以上內(nèi)容，那么我們很容易就有了思路：

抓取頁面上所有的 li 標(biāo)簽

循環(huán)處理這里 li 標(biāo)簽，找到我們所需的三個內(nèi)容，并存儲到列表中

根據(jù)評分排序

保存數(shù)據(jù)到 csv

二、依賴的包：

除了上次使用到的 requests, BeautifulSoup, 還增加了幾個包。

re 正則表達式處理

numpy 很強大的數(shù)據(jù)處理庫，因為本文要進行排序，所以使用這個包會很方便

csv 用于把最終的結(jié)果保存到csv中

time 這里主要用到了 sleep 功能

三、編碼

首先我們定義一個 get 函數(shù)，接受一個頁碼，表示要爬取到多少頁。

這個函數(shù)的主要功能就是抓取指定頁碼所有的書的信息，包括書名、評分、評論數(shù)。并且保存到一個二維數(shù)組中。

代碼解讀：

因為豆瓣的分頁是根據(jù) URL 中的 start 參數(shù)（相當(dāng)于偏移量）來分的，所以在剛開始定義了一個 offset 變量，根據(jù)我們傳入的頁碼來計算正確的 start 參數(shù)的值。

后面通過 find_all 方法獲取所有的 li 對象，存入 book_info_list 列表中，那么接下來就是遍歷這個列表，從每一個元素中得到 star、 title、comment 三個變量。最終得到一個二維數(shù)組 result。

定義排序方法，接收上面得出的 result 變量，并且將這個列表根據(jù)評分來排序。

將最終排好的數(shù)據(jù)寫入 csv 中。

四、總結(jié)

以上則是我們爬取豆瓣的小案例，有經(jīng)驗的朋友們會發(fā)現(xiàn)這個案例有很大的不足之處。

在運行這個程序的時候，我們會發(fā)現(xiàn)會非常緩慢。原因就是每次請求豆瓣的分頁 URl 之后，接下來緊跟著一條龍的獲取書名等操作，獲取完這個頁面的所有數(shù)據(jù)之后再接著抓取下一個分頁頁面。也就是完全同步的編碼方式。所以慢是必然的。

那么如何調(diào)整代碼結(jié)構(gòu)才能使程序運行迅速呢？

這里介紹一個簡單又常用的方法：

我們可以采用多線程技術(shù)，python 的 threading 包是專門用于多線程處理的。采用這種方式又多增加了兩個包：

threading

queue

可以將上述代碼的下載分頁 URL 部分代碼放入一個多帶帶的線程去跑，并將下載好的 HTML 文檔存入一個隊列中。然后多開幾個線程去隊列中讀取數(shù)據(jù)，并用 BS4 來分析，將分析得到的 list 數(shù)據(jù)結(jié)構(gòu)追加到外部的另一個list 中。最后再去排序這另一個列表。

獲取源碼請到：“ 后端漫談 ” 公眾號后臺回復(fù) “douban”。

云服務(wù)器 GPU云服務(wù)器 python抓取爬蟲 python爬蟲書籍 python爬蟲抓取數(shù)據(jù) python爬蟲抓取圖片

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/42586.html

發(fā)表評論

登陸后可評論

0條評論

SunZhaopeng

男|高級講師

我要關(guān)注我要私信

TA的文章

如何訪問自己的主機名-怎么查看自己電腦的主機名？

閱讀 2444·2021-09-22 15:41
MoeCloud：79.2元/月/1GB內(nèi)存/10GB SSD空間/2TB流量/10Gbps端口/K

閱讀 1457·2021-08-19 10:54
手挽手帶你學(xué)React：三檔 React-router4.x的使用

閱讀 1768·2019-08-23 15:11
有關(guān)getter 和 setter的使用

閱讀 3407·2019-08-23 10:23
你應(yīng)該知道的requestIdleCallback

閱讀 1434·2019-08-22 16:28
在Shadow DOM使用原生模板

閱讀 804·2019-08-22 15:11
checkbox jquery 全選反選

閱讀 746·2019-08-22 14:53
lodash源碼分析之List緩存

閱讀 720·2019-08-22 13:49

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲案例：抓取豆瓣編程類高評分書籍

對于很多正在學(xué)習(xí)計算機的朋友來說，選擇合適的學(xué)習(xí)材料是非常重要的。

本文將通過 Python 來爬取豆瓣編程類評分大于 9.0 的書籍。

此案例很適合入門爬蟲的朋友學(xué)習(xí)，總共也就 3 個函數(shù)。

下面進入正題：

相關(guān)文章

2018電影票房分析-誰才是票房之王

**23個Python爬蟲開源項目代碼，包含微信、淘寶、豆瓣、知乎、微博等**

Java學(xué)習(xí)必備書籍推薦終極版！

爬蟲學(xué)習(xí)之基于 Scrapy 的爬蟲自動登錄

發(fā)表評論

0條評論

SunZhaopeng

男|高級講師

TA的文章

如何訪問自己的主機名-怎么查看自己電腦的主機名？

MoeCloud：79.2元/月/1GB內(nèi)存/10GB SSD空間/2TB流量/10Gbps端口/K

手挽手帶你學(xué)React：三檔 React-router4.x的使用

有關(guān)getter 和 setter的使用

你應(yīng)該知道的requestIdleCallback

在Shadow DOM使用原生模板

checkbox jquery 全選反選

lodash源碼分析之List緩存

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲案例：抓取豆瓣編程類高評分書籍

對于很多正在學(xué)習(xí)計算機的朋友來說，選擇合適的學(xué)習(xí)材料是非常重要的。

本文將通過 Python 來爬取豆瓣編程類評分大于 9.0 的書籍。

此案例很適合入門爬蟲的朋友學(xué)習(xí)，總共也就 3 個函數(shù)。

下面進入正題：

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

對于很多正在學(xué)習(xí)計算機的朋友來說，選擇合適的學(xué)習(xí)材料是非常重要的。

本文將通過 Python 來爬取豆瓣編程類評分大于 9.0 的書籍。

此案例很適合入門爬蟲的朋友學(xué)習(xí)，總共也就 3 個函數(shù)。