摘要:我發(fā)現(xiàn)抖音上很多小姐姐就拍個跳舞的視頻就火了,大家是沖著舞蹈水平去的嗎,都是沖著顏值身材去的,能刷到這篇文章的都是了,我就跟大家不一樣了,一個個刷太麻煩了,我直接爬下來看個夠,先隨意展示兩個。
我發(fā)現(xiàn)抖音上很多小姐姐就拍個跳舞的視頻就火了,大家是沖著舞蹈水平去的嗎,都是沖著顏值身材去的,能刷到這篇文章的都是lsp了,我就跟大家不一樣了,一個個刷太麻煩了,我直接爬下來看個夠,先隨意展示兩個。
爬取目標(biāo):女神世界
使用環(huán)境:Python3.7 工具:pycharm 第三方庫:requests, re, pyquery
使用快捷鍵 F12 進(jìn)入開發(fā)者控制臺:
先不急, 找到 視頻地址 去搜索他 看看在哪里有包含:
定位他 發(fā)現(xiàn)是靜態(tài)頁面返回的數(shù)據(jù):
def Tools(url):# 封裝一個工具函數(shù) 用來做請求的 headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52" } response = requests.get(url, headers=headers) return responseurl = "https://www.520mmtv.com/9614.html"response = Tools(url).textvideo_url = re.findall(r"url: "(.*?)",", response)[0] # 正則表達(dá)式提取 視頻地址video_content = Tools(video_url).content# 視頻地址存儲 需要在代碼同路徑 手動創(chuàng)建 短視頻文件夾with open("./短視頻/123.mp4", "ab") as f: f.write(video_content)?# 下載了一個
def main(): url = "https://www.520mmtv.com/hd/rewu.html" response = Tools(url).text doc = pq(response) # 創(chuàng)建pyquery對象 注意根據(jù)css的 class 類選擇 和id選擇器進(jìn)行數(shù)據(jù)提取 i_list = doc(".i_list.list_n2.cxudy-list-formatvideo a").items() # .類選擇器 中間有空格的 記得替換成. meta_title = doc(".meta-title").items() # 標(biāo)題 for i, t in zip(i_list, meta_title): href = i.attr("href") Play(t.text(), href)
import requestsimport refrom pyquery import PyQuery as pqdef Tools(url): headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36 Edg/93.0.961.52" } response = requests.get(url, headers=headers) return responsedef Play(title, url): # url = "https://www.520mmtv.com/9614.html" response = Tools(url).text video_url = re.findall(r"url: "(.*?)",", response)[0] video_content = Tools(video_url).content with open("./短視頻/{}.mp4".format(title), "ab") as f: f.write(video_content) print("{}下載完成....".format(title))def main(): url = "https://www.520mmtv.com/hd/rewu.html" response = Tools(url).text doc = pq(response) # 創(chuàng)建pyquery對象 注意根據(jù)css的 class 類選擇 和id選擇器進(jìn)行數(shù)據(jù)提取 i_list = doc(".meta-title").items() # .類選擇器 中間有空格的 記得替換成. meta_title = doc(".meta-title").items() # 標(biāo)題 for i, t in zip(i_list, meta_title): href = i.attr("href") Play(t.text(), href)if __name__ == "__main__": main()
下載比較慢網(wǎng)絡(luò)不好,你網(wǎng)快的話 ,就下載快。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/123091.html
摘要:愛美之心人皆有之,正所謂窈窕淑女君子好逑,美好敲代碼的一天從好看的桌面壁紙開始,好看的桌面壁紙從美女壁紙開始。 大家好,我是辣條,這是我爬蟲系列的第26篇。 愛美之心人皆有之,正所謂窈窕淑女君子好逑,美好敲代碼的一天從好看的桌面壁紙開始,好看的桌面壁紙從美女壁紙開始。今天給大家?guī)砀@玻?..
摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:大家好我是辣條。今天給大家?guī)砼老x實(shí)戰(zhàn)例之篇爬蟲之路永無止境。 大家好,我是辣條。 今天給大家?guī)怼九老x實(shí)戰(zhàn)100例】之41篇,爬蟲之路永無止境。 爬取目標(biāo) 網(wǎng)址:尺度有點(diǎn)大,遭不住... 效果展示 工具準(zhǔn)備 開發(fā)工具ÿ...
摘要:成功爬取了拉鉤網(wǎng)上多個招聘崗位的具體信息后,數(shù)據(jù)可視化并得出分析結(jié)果如下從整體看,北上廣深杭這五個城市前端工程師招聘崗位,北京是遙遙領(lǐng)先,是深圳的兩倍,是廣州的三倍,其次到上海,深圳,杭州,廣州居末。 前前言 本文首發(fā)于 github blog 不想看爬蟲過程只想看職位錢途數(shù)據(jù)分析請看這里:前端招聘崗位分析C++招聘崗位分析JAVA招聘崗位分析PHP招聘崗位分析Python招聘崗位分析...
閱讀 2210·2021-11-19 09:55
閱讀 2685·2021-11-11 16:55
閱讀 3200·2021-09-28 09:36
閱讀 1981·2021-09-22 16:05
閱讀 3314·2019-08-30 15:53
閱讀 1829·2019-08-30 15:44
閱讀 2921·2019-08-29 13:10
閱讀 1368·2019-08-29 12:30