Python爬蟲(chóng)實(shí)戰(zhàn)，requests模塊，Python實(shí)現(xiàn)抓取微博評(píng)論

jaysun 發(fā)布于2021-11-11 16:54 / 2541人閱讀

摘要：前言利用實(shí)現(xiàn)抓取微博評(píng)論數(shù)據(jù)，廢話不多說(shuō)。讓我們愉快地開(kāi)始吧開(kāi)發(fā)工具版本相關(guān)模塊模塊模塊模塊模塊模塊以及一些自帶的模塊。環(huán)境搭建安裝并添加到環(huán)境變量，安裝需要的相關(guān)模塊即可。

前言

利用Python實(shí)現(xiàn)抓取微博評(píng)論數(shù)據(jù)，廢話不多說(shuō)。

讓我們愉快地開(kāi)始吧~

開(kāi)發(fā)工具

**Python版本：**3.6.4

相關(guān)模塊：

requests模塊；

re模塊；

pandas模塊；

lxml模塊；

random模塊；

以及一些Python自帶的模塊。

環(huán)境搭建

安裝Python并添加到環(huán)境變量，pip安裝需要的相關(guān)模塊即可。

思路分析

本文以爬取微博熱搜《霍尊手寫(xiě)道歉信》為例，講解如何爬取微博評(píng)論！

抓取評(píng)論

網(wǎng)頁(yè)地址

https://m.weibo.cn/detail/4669040301182509

網(wǎng)頁(yè)分析

微博評(píng)論是動(dòng)態(tài)加載的，進(jìn)入瀏覽器的開(kāi)發(fā)者工具后，在網(wǎng)頁(yè)上向下拉取會(huì)得到我們需要的數(shù)據(jù)包

得到真實(shí)URL

https://m.weibo.cn/comments/hotflow?id=4669040301182509&mid=4669040301182509&max_id_type=0https://m.weibo.cn/comments/hotflow?id=4669040301182509&mid=4669040301182509&max_id=3698934781006193&max_id_type=0

兩條URL區(qū)別很明顯，首條URL是沒(méi)有參數(shù)max_id的，第二條開(kāi)始max_id才出現(xiàn)，而max_id其實(shí)是前一條數(shù)據(jù)包中的max_id

但有個(gè)需要注意的是參數(shù)max_id_type，它其實(shí)也是會(huì)變化的，所以我們需要從數(shù)據(jù)包中獲取max_id_type

代碼實(shí)現(xiàn)

import reimport requestsimport pandas as pdimport timeimport randomdf = pd.DataFrame()try:    a = 1    while True:        header = {            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36"        }        resposen = requests.get("https://m.weibo.cn/detail/4669040301182509", headers=header)        # 微博爬取大概幾十頁(yè)會(huì)封賬號(hào)的，而通過(guò)不斷的更新cookies，會(huì)讓爬蟲(chóng)更持久點(diǎn)...        cookie = [cookie.value for cookie in resposen.cookies]  # 用列表推導(dǎo)式生成cookies部件        headers = {         # 登錄后的cookie， SUB用登錄后的            "cookie": f"WEIBOCN_FROM={cookie[3]}; SUB=; _T_WM={cookie[4]}; MLOGIN={cookie[1]}; M_WEIBOCN_PARAMS={cookie[2]}; XSRF-TOKEN={cookie[0]}",            "referer": "https://m.weibo.cn/detail/4669040301182509",            "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36"        }        if a == 1:            url = "https://m.weibo.cn/comments/hotflow?id=4669040301182509&mid=4669040301182509&max_id_type=0"        else:            url = f"https://m.weibo.cn/comments/hotflow?id=4669040301182509&mid=4669040301182509&max_id={max_id}&max_id_type={max_id_type}"        html = requests.get(url=url, headers=headers).json()        data = html["data"]        max_id = data["max_id"]  # 獲取max_id和max_id_type返回給下一條url        max_id_type = data["max_id_type"]        for i in data["data"]:            screen_name = i["user"]["screen_name"]            i_d = i["user"]["id"]            like_count = i["like_count"]  # 點(diǎn)贊數(shù)            created_at = i["created_at"]  # 時(shí)間            text = re.sub(r"<[^>]*>", "", i["text"])  # 評(píng)論            print(text)            data_json = pd.DataFrame({"screen_name": [screen_name], "i_d": [i_d], "like_count": [like_count], "created_at": [created_at],"text": [text]})            df = pd.concat([df, data_json])        time.sleep(random.uniform(2, 7))        a += 1except Exception as e:    print(e)df.to_csv("微博.csv", encoding="utf-8", mode="a+", index=False)print(df.shape)

效果展示

GPU云服務(wù)器云服務(wù)器 python抓取微博 python抓取爬蟲(chóng) python爬蟲(chóng)抓取數(shù)據(jù) python爬蟲(chóng)抓取圖片

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/122995.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

jaysun

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

【2022考研最后40天】要注意這4個(gè)時(shí)間節(jié)點(diǎn)和這5件事情

閱讀 823·2021-11-18 10:02
Python爬蟲(chóng)實(shí)戰(zhàn)，requests模塊，Python實(shí)現(xiàn)抓取微博評(píng)論

閱讀 2542·2021-11-11 16:54
xxmhost：美國(guó)洛杉磯CN2 GIA云服務(wù)器終身7折40元/月起(美國(guó)原生IP云服務(wù)器)

閱讀 2765·2021-09-02 09:45
我的WEB前端辛酸史

閱讀 663·2019-08-30 12:52
CSS及布局

閱讀 2791·2019-08-29 14:04
css水平垂直居中

閱讀 2757·2019-08-29 12:39
移動(dòng)端1px線的實(shí)現(xiàn)

閱讀 460·2019-08-29 12:27
使用webpack從0搭建多入口網(wǎng)站腳手架，可復(fù)用導(dǎo)航欄/底部通欄/側(cè)邊欄，根據(jù)頁(yè)面文件自動(dòng)更改配置

閱讀 1897·2019-08-26 13:23

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python爬蟲(chóng)實(shí)戰(zhàn)，requests模塊，Python實(shí)現(xiàn)抓取微博評(píng)論

前言

開(kāi)發(fā)工具

環(huán)境搭建

思路分析

抓取評(píng)論

相關(guān)文章

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)---35、 Ajax數(shù)據(jù)爬取

**23個(gè)Python爬蟲(chóng)開(kāi)源項(xiàng)目代碼，包含微信、淘寶、豆瓣、知乎、微博等**

**零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)**

Python定向爬蟲(chóng)，模擬新浪微博登錄！

發(fā)表評(píng)論

0條評(píng)論

jaysun

男|高級(jí)講師

TA的文章

【2022考研最后40天】要注意這4個(gè)時(shí)間節(jié)點(diǎn)和這5件事情