獲取百度貼吧頭像的爬蟲

AJie 發(fā)布于2019-07-31 11:41 / 2234人閱讀

摘要：在上一篇文章的基礎(chǔ)上增加獲取百度貼吧的頭像圖片的功能，使用到的技術(shù)為，，具體實現(xiàn)如下查看網(wǎng)頁源代碼測試網(wǎng)頁鏈接通過定位頭像的的代碼每一樓層的標(biāo)簽是從樓層開始，直到定位到照片順序應(yīng)該是提取信息通過一步步獲取到這一層，提取到這個標(biāo)簽中的就可以獲

在上一篇文章的基礎(chǔ)上增加獲取百度貼吧的頭像圖片的功能，使用到的技術(shù)為XPath，Requests，具體實現(xiàn)如下：

1. 查看網(wǎng)頁源代碼
測試網(wǎng)頁鏈接：http://tieba.baidu.com/p/3522395718?pn=1 通過Chrome定位頭像的HTML的代碼

每一樓層的標(biāo)簽是：

class="l_post j_l_post l_post_bright  "

從樓層開始，直到定位到照片順序應(yīng)該是

2. 提取XPath信息
通過XPath一步步獲取到這一層，提取到這個標(biāo)簽中的src就可以獲取到圖片的url

ImgLink = ImgFilter.xpath("http://div[@class="l_post j_l_post l_post_bright  "]")[0]
links = ImgLink.xpath("http://div[@class="d_author"]/ul/li/div[@class="icon_relative j_user_card"]/a/img/@data-tb-lazyload")

這里會遇到一個問題，如果第二個XPath的條件是/img/@src則會遇到一個問題：
使用requests獲取到的html會有很多空白的頭像

"http://tb2.bdstatic.com/tb/static-pb/img/head_80.jpg"

這是因為網(wǎng)頁是分步加載的，首先使用默認(rèn)的頭像展示，再逐步下載自定義頭像替換，因此還要得到自定義頭像的地址，通過分析網(wǎng)頁代碼，可以發(fā)現(xiàn)：

“data-tb-lazyload”這個才是真正的自定義頭像的鏈接地址

3. 去掉獲取到的鏈接中的重復(fù)值
由于貼吧的不同的樓層是有可能是同一個人，即同一個頭像的；為了節(jié)省空間，我們要去除掉重復(fù)的圖像，在Python中可以通過函數(shù)set()去除列表重復(fù)值

links = list(set(links))

測試一下：

print("before set list:{0}".format(len(links)))
links = list(set(links))
print("after set list:{0}".format(len(links)))

測試結(jié)果：

before set list:27
after set list:21

成功消除掉了重復(fù)的鏈接

4.將鏈接存儲到j(luò)peg文件
Requests庫中包含了獲取數(shù)據(jù)的方法get()，可以使用該方法將鏈接存儲到文件中

with open("img{0}.jpeg".format(i),"wb") as code:
            code.write(graphic.content)

完整程序（可直接使用）

#-*-coding:utf8-*-
from lxml import etree
import requests
import re

def GetImgLink(url):
    html = requests.get(url)
    html = re.sub(r"charset=(/w*)", "charset=UTF-8", html.text)
    ImgFilter = etree.HTML(html)
    ImgLink = ImgFilter.xpath("http://div[@class="l_post j_l_post l_post_bright  "]")[0]
    links = ImgLink.xpath("http://div[@class="d_author"]/ul/li/div[@class="icon_relative j_user_card"]/a/img/@data-tb-lazyload")
    #links = ImgLink.xpath("http://div[@class="d_author"]/ul/li/div[@class="icon_relative j_user_card"]/a/img/@src")
    print(links)
    print("before set list:{0}".format(len(links)))
    links = list(set(links))
    print("after set list:{0}".format(len(links)))
    i = 0
    for each_link in links:
        graphic = requests.get(each_link)
        with open("img{0}.jpeg".format(i),"wb") as code:
            code.write(graphic.content)
        i = i + 1


pagelink = "http://tieba.baidu.com/p/3522395718?pn=1"
GetImgLink(pagelink)

測試結(jié)果：

云服務(wù)器 GPU云服務(wù)器百度爬蟲爬蟲獲取網(wǎng)頁信息短視頻當(dāng)頭像的更換頭像的html

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/45413.html

發(fā)表評論

登陸后可評論

0條評論

AJie

男|高級講師

我要關(guān)注我要私信

TA的文章

argocd-rollouts基于svc 的自動灰度發(fā)布

閱讀 3407·2021-11-22 15:22
idea小功能將java冗余代碼抽成方法解決代碼行數(shù)超限

閱讀 2386·2021-09-06 15:00
云上戰(zhàn)“疫”背后：快杰云主機(jī)的技術(shù)擔(dān)當(dāng)

閱讀 886·2020-06-22 14:39
7 個開放式的 CSS 面試題及回答策略

閱讀 3716·2019-08-30 15:56
css樣式權(quán)重優(yōu)先級，css樣式優(yōu)先級

閱讀 1550·2019-08-30 12:55
【CSS】一文讀懂 Animation 中的時間函數(shù) steps

閱讀 3290·2019-08-29 17:19
javascript中你可能遇到的隱式調(diào)用

閱讀 3239·2019-08-26 11:41
添加自定義屬性到Viewer的屬性面板

閱讀 625·2019-08-23 17:14

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

獲取百度貼吧頭像的爬蟲

相關(guān)文章

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

23個Python爬蟲開源項目代碼，包含微信、淘寶、豆瓣、知乎、微博等

python爬蟲爬取百度網(wǎng)盤-怎么做一個百度網(wǎng)盤搜索引擎

嘗試用Python3爬取網(wǎng)頁圖片的過程記錄

發(fā)表評論

0條評論

AJie

男|高級講師

TA的文章

argocd-rollouts基于svc 的自動灰度發(fā)布

idea小功能將java冗余代碼抽成方法解決代碼行數(shù)超限

云上戰(zhàn)“疫”背后：快杰云主機(jī)的技術(shù)擔(dān)當(dāng)

7 個開放式的 CSS 面試題及回答策略

css樣式權(quán)重優(yōu)先級，css樣式優(yōu)先級

【CSS】一文讀懂 Animation 中的時間函數(shù) steps

javascript中你可能遇到的隱式調(diào)用

添加自定義屬性到Viewer的屬性面板

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

獲取百度貼吧頭像的爬蟲

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！