Python爬蟲實戰(zhàn)：1000圖庫大全【別輕易點進來】

番茄西紅柿發(fā)布于2021-11-11 16:54 / 3170人閱讀

摘要：大家好我是辣條。今天給大家?guī)砼老x實戰(zhàn)例之篇爬蟲之路永無止境。

大家好，我是辣條。

今天給大家?guī)怼九老x實戰(zhàn)100例】之41篇，爬蟲之路永無止境。

爬取目標(biāo)

網(wǎng)址：尺度有點大，遭不住...

效果展示

工具準(zhǔn)備

開發(fā)工具：pycharm 開發(fā)環(huán)境：python3.7， Windows11 使用工具包：requests

項目解析思路

獲取當(dāng)當(dāng)前網(wǎng)頁的跳轉(zhuǎn)地址，當(dāng)前頁面為主頁面數(shù)據(jù)，我們需要的數(shù)據(jù)別有一番天地，獲取到網(wǎng)頁信息提取出所有的跳轉(zhuǎn)地址，獲取到源碼里的a標(biāo)簽就行當(dāng)前網(wǎng)頁的加載方式為靜態(tài)數(shù)據(jù)，直接請求網(wǎng)頁地址；

url = 'https://www.xxxx.com/

從源代碼里提取到所以的跳轉(zhuǎn)地址

提取的方式可自行選擇，小編這里使用正則的方式提取數(shù)據(jù)，提取詳情頁面的地址以及標(biāo)題，用來保存圖片起名字，獲取到進入詳情頁面的地址后對地址發(fā)送請求，詳情頁面的數(shù)據(jù)也分為很多的頁面，每個頁面有好幾張圖片，需要對網(wǎng)址進行拼接，構(gòu)造出新的地址信息，

 ? ?for i in range(1, int(page_num[0]) + 1): ? ? ? ?if i == 1: ? ? ? ? ? ?new_url = info_url ? ? ? ?else: ? ? ? ? ? ?new_url = info_url.replace('.html', f'_{i}.html') ? ? ? ?# print(new_url) ? ? ? ?jpg_data = requests.get(new_url, headers=headers).content.decode('gbk')

請求之后提取出所有的圖片地址在對圖片地址發(fā)送請求，保存數(shù)據(jù)大功告成！！

簡易源碼分享

import requests ? import re ? ? ? ??headers = { ? ?'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}for i in range(1, 20): ? ?url = 'https://www.xxxx.com/guoneimeinv/list_5_{}.html'.format(i) ? ?response = requests.get(url, headers=headers) ? ?# print(response.content.decode('gbk')) ? ?# 提取想要的數(shù)據(jù)信息 ? ?data_list = re.findall(' ', response.content.decode('gbk')) ? ?# print(data_list) ? ?num = 0 ? ?for info_url, title in data_list: ? ? ? ?# print(info_url) ? ? ? ? # print(title) ? ? ? ?res = requests.get(info_url, headers=headers).content.decode('gbk') ? ? ? ?# print(res) ? ? ? ?page_num = re.findall('
共(.*?)頁: ', res) ? ? ? ?# print(page_num)? ? ? ? ?for i in range(1, int(page_num[0]) + 1): ? ? ? ? ? ?if i == 1: ? ? ? ? ? ? ? ?new_url = info_url ? ? ? ? ? ?else: ? ? ? ? ? ? ? ?new_url = info_url.replace('.html', f'_{i}.html') ? ? ? ? ? ?# print(new_url) ? ? ? ? ? ?jpg_data = requests.get(new_url, headers=headers).content.decode('gbk') ? ? ? ? ? ?# print(jpg_data) ? ? ? ? ? ?jpg_url_list = re.findall('

', jpg_data) ? ? ? ? ? ?# print(jpg_url_list) ? ? ? ? ? ?for jgp_url in jpg_url_list: ? ? ? ? ? ? ? ?result = requests.get(jgp_url, headers=headers).content ? ? ? ? ? ? ? ?f = open('1000圖庫/' + title + "-" + str(num) + ".jpg", 'wb') ? ? ? ? ? ? ? ?f.write(result) ? ? ? ? ? ? ? ?num += 1 ? ? ? ? ? ? ? ?print(f"正在下載{title}第{num}張")

??👇🏻?疑難解答、學(xué)習(xí)資料、路線圖可通過搜索下方?👇🏻

云服務(wù)器 GPU云服務(wù)器 python爬蟲實戰(zhàn) 懂事的已經(jīng)點進來看了 python3爬蟲實戰(zhàn) 爬蟲實戰(zhàn)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/122985.html

發(fā)表評論

登陸后可評論

0條評論

番茄西紅柿

男|高級講師

我要關(guān)注我要私信

TA的文章

tensor

閱讀 734·2023-04-25 19:43
Windows 下安裝 XGBoost

閱讀 3980·2021-11-30 14:52
Hadoop 2.6.0 啟動問題 lib/native/libhadoop.so which mi

閱讀 3806·2021-11-30 14:52
VmShell：黑五美國VPS,免費先開通測試,滿意后付款!支持tiktok美區(qū)

閱讀 3870·2021-11-29 11:00
百度智能云：云產(chǎn)品特惠福利,1核2G輕量應(yīng)用服務(wù)器僅48元/年

閱讀 3801·2021-11-29 11:00
Linux系統(tǒng)和寶塔面板如何啟用禁ping功能?

閱讀 3902·2021-11-29 11:00
301重定向怎么做?301重定向設(shè)置方法有幾種

閱讀 3580·2021-11-29 11:00
wordpress網(wǎng)站重定向次數(shù)過多的解決方法

閱讀 6182·2021-11-29 11:00

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲實戰(zhàn)：1000圖庫大全【別輕易點進來】

爬取目標(biāo)

效果展示

工具準(zhǔn)備

項目解析思路

簡易源碼分享

相關(guān)文章

Evil Python

python kotlin 人工智能資料大全

python kotlin 人工智能資料大全

python kotlin 人工智能資料大全

Python各熱門方向常用學(xué)習(xí)、工作網(wǎng)址大全【7000字大總結(jié)】

發(fā)表評論

0條評論

番茄西紅柿

男|高級講師

TA的文章

tensor

Windows 下安裝 XGBoost

Hadoop 2.6.0 啟動問題 lib/native/libhadoop.so which mi

VmShell：黑五美國VPS,免費先開通測試,滿意后付款!支持tiktok美區(qū)

百度智能云：云產(chǎn)品特惠福利,1核2G輕量應(yīng)用服務(wù)器僅48元/年

Linux系統(tǒng)和寶塔面板如何啟用禁ping功能?

301重定向怎么做?301重定向設(shè)置方法有幾種

wordpress網(wǎng)站重定向次數(shù)過多的解決方法

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲實戰(zhàn)：1000圖庫大全【別輕易點進來】

爬取目標(biāo)

效果展示

工具準(zhǔn)備

項目解析思路

簡易源碼分享

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！