成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細(xì)新手實(shí)現(xiàn)(01)webdriv

Half / 2866人閱讀

摘要:且本小白也親身經(jīng)歷了整個(gè)從小白到爬蟲初入門的過程,因此就斗膽在上開一個(gè)欄目,以我的圖片爬蟲全實(shí)現(xiàn)過程為例,以期用更簡(jiǎn)單清晰詳盡的方式來幫助更多小白應(yīng)對(duì)更大多數(shù)的爬蟲實(shí)際問題。

前言:

一個(gè)月前,博主在學(xué)過python(一年前)、會(huì)一點(diǎn)網(wǎng)絡(luò)(能按F12)的情況下,憑著熱血和興趣,開始了python爬蟲的學(xué)習(xí)。一路過來走了相當(dāng)多彎路,但是前不久終于成功了?。。。I目)

經(jīng)過一個(gè)月的學(xué)習(xí),博主我感覺CSDN上圖片爬取教程確實(shí)詳細(xì)且方法繁多,但大都偏公式化或者不夠貼近小白。且本小白也親身經(jīng)歷了整個(gè)從小白到爬蟲初入門的過程,因此就斗膽在CSDN上開一個(gè)欄目,以我的python圖片爬蟲全實(shí)現(xiàn)過程為例,以期用更簡(jiǎn)單、清晰、詳盡的方式來幫助更多小白應(yīng)對(duì)更大多數(shù)的爬蟲實(shí)際問題。

第一次寫blog真的十分激動(dòng)?。?!希望大家多多鼓勵(lì)點(diǎn)贊,過路大神多多指教,寫得不對(duì)的地方請(qǐng)直接指出?。?!

本欄目大致會(huì)分為4章(有空馬上更)分別是:

  1. 環(huán)境配置+基礎(chǔ)知識(shí)
  2. 獲取圖片地址+根據(jù)地址下載圖片
  3. 翻頁+反爬+完整代碼
  4. 爬蟲實(shí)戰(zhàn)案例:爬取網(wǎng)站商品信息


正文:

博主本人用的是window10系統(tǒng)、python3.8(需要add to path)pycharm

老規(guī)矩先來一張的思維導(dǎo)圖

所謂之所以要基于selenium庫爬蟲,是因?yàn)楝F(xiàn)在網(wǎng)頁大部分由JavaScript語言所寫,特點(diǎn)是動(dòng)態(tài)加載網(wǎng)絡(luò)元素,網(wǎng)絡(luò)元素經(jīng)過瀏覽器渲染才向用戶顯示(表現(xiàn)為在網(wǎng)頁右鍵查看源碼和按F12調(diào)出開發(fā)者工具看到的網(wǎng)絡(luò)元素不盡相同),用requests庫不能實(shí)現(xiàn)爬蟲,而selenium庫能模擬用戶使用瀏覽器,能很好地處理絕大多數(shù)的網(wǎng)絡(luò)爬蟲。本文開始幾個(gè)篇章以圖片爬蟲為例,后面附一個(gè)爬取京東iPhone價(jià)格、商品名稱、評(píng)論、店鋪信息的實(shí)例。

開始前,我想說看視頻是最最快的學(xué)習(xí)方法,個(gè)人是在B站學(xué)到了requests庫實(shí)戰(zhàn)和selenium庫實(shí)戰(zhàn)(兩個(gè)視頻都是我看過那么多最詳細(xì)最好的,鏈接【1】【2】我放在下面)。期間在網(wǎng)絡(luò)基礎(chǔ)和瀏覽器知識(shí)這一塊也參考了紫書《python網(wǎng)絡(luò)爬蟲權(quán)威指南》,還有關(guān)于網(wǎng)絡(luò)想要深入了解的同學(xué)可以看鏈接【3】。

新手警告:剛開始爬蟲建議用IDLE!??!

新手警告:剛開始爬蟲建議用IDLE!??!

新手警告:剛開始爬蟲建議用IDLE?。?!

(selenium庫查找不到元素就會(huì)報(bào)錯(cuò)容易把心態(tài)搞崩,建議一步步在IDLE上執(zhí)行,最后適當(dāng)加上time.sleep()復(fù)制到pycharm)


一、環(huán)境

01瀏覽器環(huán)境

from selenium import webdriverdriver = webdriver.Chrome()#用谷歌瀏覽器#driver = webdriver.Edge()#用Microsoft Edge#driver = webdriver.PhantomJS()#用無頭瀏覽器
  1. 用selenium庫爬蟲需要用到driver,也就是可供selenium庫使用的瀏覽器.exe,調(diào)用的時(shí)候如上
  2. 下載對(duì)應(yīng)瀏覽器可在CSDN查找就可,附帶教程很詳細(xì)(搜索:‘“selenium庫webdriver+瀏覽器名稱”)
  3. 所謂無頭瀏覽器就是不顯示界面的瀏覽器,但可以通過截圖了解狀態(tài)

注意:

  1. 下載webdriver時(shí)需選擇和自己當(dāng)前瀏覽器的版本一致
點(diǎn)開瀏覽器設(shè)置查看

?????2. 下載后的瀏覽器.exe直接拖動(dòng)到python所在地址。python所在地址可直接window鍵+R,再輸入cmd調(diào)出命令行窗口輸入“where python”就找到python路徑了。

命令行窗口里python路徑

?然后就可正常使用webdriver了。

02下載外部庫

????????也是在命令行窗口,先輸入python看下python是否正常加到path

像這樣是OK的

?然后先輸入“quit()”退出python,再依次輸入“pip install selenium”,“pip install requests”,如出現(xiàn)“...install successfully”不報(bào)錯(cuò)就是安裝成功(warning不用管)、

注意:如果報(bào)錯(cuò)可以改成“pip3 install selenium”,“pip3 install requests”


二、基礎(chǔ)知識(shí)

這里比較重要的是字符串操作和網(wǎng)頁知識(shí)(主要是一些快捷鍵)

01字符串操作

主要用到的功能是截取、相加(也就是拼接),以及format函數(shù)(可用于字符串拼接)和split函數(shù)(用于選取字符串內(nèi)容),需要用的時(shí)候去CSDN查看即可。在爬取圖片時(shí)一般用于修正圖片地址和創(chuàng)建圖片名稱

02數(shù)組知識(shí)

主要用到選取元素和遍歷

03通過requests庫從圖片地址下載圖片

其實(shí)是一組模塊,和創(chuàng)建文件模塊一起使用(后面的bloc會(huì)說的)

04網(wǎng)頁基礎(chǔ)知識(shí)

重點(diǎn)說說網(wǎng)頁基礎(chǔ)知識(shí),爬蟲中很需要實(shí)時(shí)根據(jù)網(wǎng)頁內(nèi)容改變爬取方法。

  1. 首先需要的是開發(fā)者工具,有的同學(xué)可以直接按F12調(diào)出,有的需要手動(dòng)按一按。我們需要點(diǎn)擊右邊的“元素”,然后在頁面中選擇一個(gè)元素右鍵點(diǎn)擊“檢查”,就可以找到對(duì)應(yīng)的代碼。
如圖點(diǎn)擊(Microsoft Edge為例)

右鍵檢查,選擇“元素”

?????2.然后具體說說網(wǎng)頁元素

  • 節(jié)點(diǎn)的名稱有的叫div,有的叫a,有的叫img。
  • 我們所需的要素也有一個(gè)名稱,有的叫class,有的叫id,有的叫src。
  • 這些節(jié)點(diǎn)里面的要素有一個(gè)(比如class=“”里面的東西),網(wǎng)頁上所有的元素,都存放在這一個(gè)個(gè)值中。通過這些要素的值,我們可以尋找到特定的節(jié)點(diǎn);也可以根據(jù)值的名稱,在節(jié)點(diǎn)里獲取這個(gè)值
  • 我們所需的圖片地址,一般就是img節(jié)點(diǎn)的src要素的值(如下圖)
如圖找到了該圖片的地址

注意:

  1. 在開發(fā)者工具中可按Ctrl+F查找需要的網(wǎng)頁元素
  2. “元素”的左邊按鈕可把頁面從電腦模式切換成手機(jī)模式,再左邊按鈕按動(dòng)后劃過網(wǎng)頁元素會(huì)自動(dòng)跳到對(duì)應(yīng)代碼

? ? ? ?


下一篇獲取圖片地址+根據(jù)地址下載圖片是重頭戲,喜歡的朋友請(qǐng)追更。

碼字不易求點(diǎn)贊!

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/121679.html

相關(guān)文章

  • 爬蟲攻防實(shí)踐

    摘要:之前在學(xué)校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐。爬蟲腳本通常會(huì)很頻繁的進(jìn)行網(wǎng)絡(luò)請(qǐng)求,比如要爬取豆瓣排行榜的電影,就會(huì)連續(xù)發(fā)送個(gè)網(wǎng)絡(luò)請(qǐng)求。 之前在學(xué)校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐...

    wanglu1209 評(píng)論0 收藏0
  • 爬蟲攻防實(shí)踐

    摘要:之前在學(xué)校曾經(jīng)用過的方法做過一些爬蟲腳本來玩,從正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐。爬蟲腳本通常會(huì)很頻繁的進(jìn)行網(wǎng)絡(luò)請(qǐng)求,比如要爬取豆瓣排行榜的電影,就會(huì)連續(xù)發(fā)送個(gè)網(wǎng)絡(luò)請(qǐng)求。 之前在學(xué)校曾經(jīng)用過request+xpath的方法做過一些爬蟲腳本來玩,從ios正式轉(zhuǎn)前端之后,出于興趣,我對(duì)爬蟲和反爬蟲又做了一些了解,并且做了一些爬蟲攻防的實(shí)踐...

    xiangzhihong 評(píng)論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時(shí)間永遠(yuǎn)都過得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評(píng)論0 收藏0
  • 前程無憂崗位數(shù)據(jù)爬取+Tableau可視化分析

    摘要:實(shí)際上,前程無憂招聘網(wǎng)站上與數(shù)據(jù)有關(guān)的只有幾百頁,而我們爬取了頁的所有數(shù)據(jù),因此在后面進(jìn)行數(shù)據(jù)處理時(shí)需要把無關(guān)的數(shù)據(jù)剔除掉。 目錄 一、項(xiàng)目背景 二、數(shù)據(jù)爬取 1、相關(guān)庫的導(dǎo)入與說明 2、獲取二級(jí)頁面鏈接 1)分析一級(jí)頁面url特征 2)構(gòu)建一級(jí)url庫 3)爬取所有二級(jí)url鏈接 3、獲取...

    233jl 評(píng)論0 收藏0
  • Python3 實(shí)現(xiàn)淘女郎照片爬蟲

    摘要:項(xiàng)目簡(jiǎn)介本實(shí)驗(yàn)通過使用實(shí)現(xiàn)一個(gè)淘寶女郎圖片收集爬蟲,學(xué)習(xí)并實(shí)踐及正則表達(dá)式等知識(shí)。本教程由阿發(fā)布在實(shí)驗(yàn)樓,完整教程及在線練習(xí)地址實(shí)現(xiàn)淘女郎照片爬蟲,可以直接在教程中下載代碼使用。 showImg(https://segmentfault.com/img/bVBgrF); 項(xiàng)目簡(jiǎn)介:本實(shí)驗(yàn)通過使用 Python 實(shí)現(xiàn)一個(gè)淘寶女郎圖片收集爬蟲,學(xué)習(xí)并實(shí)踐 BeautifulSoup、Sel...

    jindong 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<