selenium跳過webdriver檢測并爬取天貓商品數(shù)據(jù)

codecook 發(fā)布于2019-07-31 10:09 / 3226人閱讀

摘要：簡介現(xiàn)在爬取淘寶，天貓商品數(shù)據(jù)都是需要首先進(jìn)行登錄的。把關(guān)鍵點(diǎn)放在如何爬取天貓商品數(shù)據(jù)上。是一款優(yōu)秀的自動(dòng)化測試工具，所以現(xiàn)在采用進(jìn)行半自動(dòng)化爬取數(shù)據(jù)。以開頭的在中表示類名，以開頭的在中表示名。

簡介

現(xiàn)在爬取淘寶，天貓商品數(shù)據(jù)都是需要首先進(jìn)行登錄的。上一節(jié)我們已經(jīng)完成了模擬登錄淘寶的步驟，所以在此不詳細(xì)講如何模擬登錄淘寶。把關(guān)鍵點(diǎn)放在如何爬取天貓商品數(shù)據(jù)上。

過去我曾經(jīng)使用get/post方式進(jìn)行爬蟲，同時(shí)也加入IP代理池進(jìn)行跳過檢驗(yàn)，但隨著大型網(wǎng)站的升級(jí)，采取該策略比較難實(shí)現(xiàn)了。因?yàn)槟闶褂胓et/post方式進(jìn)行爬取數(shù)據(jù)，會(huì)提示需要登錄，而登錄又是一大難題，需要滑動(dòng)驗(yàn)證碼驗(yàn)證。當(dāng)你想使用IP代理池進(jìn)行跳過檢驗(yàn)時(shí)，發(fā)現(xiàn)登錄時(shí)需要手機(jī)短信驗(yàn)證碼驗(yàn)證，由此可以知道舊的全自動(dòng)爬取數(shù)據(jù)對(duì)于大型網(wǎng)站比較困難了(小型網(wǎng)站可以使用get/post，沒檢測或者檢測系數(shù)較低)。

selenium是一款優(yōu)秀的WEB自動(dòng)化測試工具，所以現(xiàn)在采用selenium進(jìn)行半自動(dòng)化爬取數(shù)據(jù)。

編寫思路

由于現(xiàn)在大型網(wǎng)站對(duì)selenium工具進(jìn)行檢測，若檢測到selenium，則判定為機(jī)器人，訪問被拒絕。所以第一步是要防止被檢測出為機(jī)器人，如何防止被檢測到呢？當(dāng)使用selenium進(jìn)行自動(dòng)化操作時(shí)，在chrome瀏覽器中的consloe中輸入windows.navigator.webdriver會(huì)發(fā)現(xiàn)結(jié)果為Ture，而正常使用瀏覽器的時(shí)候該值為False。所以我們將windows.navigator.webdriver進(jìn)行屏蔽。
在代碼中添加：

        options = webdriver.ChromeOptions()
        # 此步驟很重要，設(shè)置為開發(fā)者模式，防止被各大網(wǎng)站識(shí)別出來使用了Selenium
        options.add_experimental_option("excludeSwitches", ["enable-automation"]) 
        self.browser = webdriver.Chrome(executable_path=chromedriver_path, options=options)

同時(shí)，為了加快爬取速度，我們將瀏覽器模式設(shè)置為不加載圖片，在代碼中添加：

        options = webdriver.ChromeOptions()
        # 不加載圖片,加快訪問速度
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})

同時(shí)，為了模擬人工操作，我們在瀏覽網(wǎng)頁的時(shí)候，模擬下滑，插入代碼：

    # 模擬向下滑動(dòng)瀏覽
    def swipe_down(self,second):
        for i in range(int(second/0.1)):
            js = "var q=document.documentElement.scrollTop=" + str(300+200*i)
            self.browser.execute_script(js)
            sleep(0.1)
        js = "var q=document.documentElement.scrollTop=100000"
        self.browser.execute_script(js)
        sleep(0.2)

至此，關(guān)鍵的步驟我們已經(jīng)懂了，剩下的就是編寫代碼的事情了。在給定的例子中，需要你對(duì)html、css有一定了解。
比如存在以下代碼：

        self.browser.find_element_by_xpath("http://*[@class="btn_tip"]/a/span").click()
        taobao_name = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ".site-nav-bd > ul.site-nav-bd-l > li#J_SiteNavLogin > div.site-nav-menu-hd > div.site-nav-user > a.site-nav-login-info-nick ")))
        print(taobao_name.text)

第1行代碼指的是從根目錄(//)開始尋找任意(*)一個(gè)class名為btn_tip的元素，并找到btn_tip的子元素a標(biāo)簽中的子元素span

第2行代碼指的是等待某個(gè)CSS元素出現(xiàn)，否則代碼停留在這里一直檢測。以.開頭的在CSS中表示類名(class)，以#開頭的在CSS中表示ID名(id)。A > B，指的是A的子元素B。所以這行代碼可以理解為尋找A的子元素B的子元素C的子元素D的子元素E出現(xiàn)，否則一直在這里檢測。

第3行代碼指的是打印某個(gè)元素的文本內(nèi)容

看完上面的代碼，我們大概了解了selenium中html、css的基本規(guī)則。我們來實(shí)踐一下，在搜索商品的時(shí)候如何檢測一共有多少頁呢？不妨看看以下代碼：

        # 等待該頁面全部商品數(shù)據(jù)加載完畢
        good_total = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#J_ItemList > div.product > div.product-iWrap")))

        # 等待該頁面input輸入框加載完畢
        input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ".ui-page > div.ui-page-wrap > b.ui-page-skip > form > input.ui-page-skipTo")))

        # 獲取當(dāng)前頁
        now_page = input.get_attribute("value")
        print("當(dāng)前頁數(shù)" + now_page + ",總共頁數(shù)" + page_total)

打開chrome中的控制臺(tái)，轉(zhuǎn)向console。點(diǎn)擊console面板中的十字指針，移動(dòng)到網(wǎng)頁中的“共31頁，到第1頁”，然后點(diǎn)擊。你就可以看到該元素的class名為ui-page-skipTo，由于在css中，class用.表示，所以代碼為.ui-page-skipTo。

同時(shí)由于他的類型是input輸入框，變成input.ui-page-skipTo。那么是否可以把代碼直接寫成.ui-page-skipTo呢？答案是不一定，如果這個(gè)元素在網(wǎng)頁中是唯一的，沒有其他的input的名字也叫ui-page-skipTo的話，就可以。

所以，為了保證代碼健壯性，我們從他的父元素一直查找，直到我們覺得那個(gè)父元素是唯一的，那么這樣查找到的元素就是唯一的了。所以最終查找到的結(jié)果為.ui-page > div.ui-page-wrap > b.ui-page-skip > form > input.ui-page-skipTo

最后，我們獲取這個(gè)Input的值，代碼為input.get_attribute("value")

在獲取商品數(shù)據(jù)中，存在以下代碼：

        # 獲取本頁面源代碼
        html = self.browser.page_source

        # pq模塊解析網(wǎng)頁源代碼
        doc = pq(html)

        # 存儲(chǔ)天貓商品數(shù)據(jù)
        good_items = doc("#J_ItemList .product").items()

        # 遍歷該頁的所有商品
        for item in good_items:
            good_title = item.find(".productTitle").text().replace("
","").replace("
","")
            good_status = item.find(".productStatus").text().replace(" ","").replace("筆","").replace("
","").replace("
","")
            good_price = item.find(".productPrice").text().replace("￥", "").replace(" ", "").replace("
", "").replace("
", "")
            good_url = item.find(".productImg").attr("href")
            print(good_title + "   " + good_status + "   " + good_price + "   " + good_url + "
")

首先，我們獲取本頁面的源代碼html = self.browser.page_source，然后用pq模塊對(duì)源代碼進(jìn)行格式化解析doc = pq(html)，通過上面的講解，我們已經(jīng)學(xué)會(huì)了如何分析css元素了。你會(huì)發(fā)現(xiàn)有一個(gè)DIV元素包含著所有商品元素，他的ID(不是class哦)為J_ItemList，所以代碼為#J_ItemList，由于我們要獲取的是每一個(gè)商品，所以代碼為#J_ItemList .product，這樣就可以獲取所有class名為product的元素啦。

接著對(duì)每個(gè)商品元素進(jìn)行分析，后面的就不必詳細(xì)說了。replace函數(shù)是對(duì)文本進(jìn)行一些基本替換。

使用教程

點(diǎn)擊這里下載下載chrome瀏覽器

查看chrome瀏覽器的版本號(hào)，點(diǎn)擊這里下載對(duì)應(yīng)版本號(hào)的chromedriver驅(qū)動(dòng)

pip安裝下列包

[x] pip install selenium

點(diǎn)擊這里登錄微博，并通過微博綁定淘寶賬號(hào)密碼

在main中填寫chromedriver的絕對(duì)路徑

在main中填寫微博賬號(hào)密碼

    #改成你的chromedriver的完整路徑地址
    chromedriver_path = "/Users/bird/Desktop/chromedriver.exe" 
    #改成你的微博賬號(hào)
    weibo_username = "改成你的微博賬號(hào)"
    #改成你的微博密碼
    weibo_password = "改成你的微博密碼"

演示圖片

爬蟲過程圖片查看不了點(diǎn)擊這里
爬蟲結(jié)果圖片查看不了點(diǎn)擊這里

源代碼

項(xiàng)目源代碼在GitHub倉庫

項(xiàng)目持續(xù)更新，歡迎您star本項(xiàng)目

云服務(wù)器 GPU云服務(wù)器爬取天貓 linux 跳過磁盤檢測 ECS 跳過磁盤檢測 webdriver

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/43346.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

codecook

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

BLIINKER+ESP32編譯問題：some warnings being treated as

閱讀 2316·2021-10-13 09:39
傲游主機(jī)(aoyoyun)，荷蘭CU2 VPS測評(píng)，走聯(lián)通AS10099/AS9929線路

閱讀 3429·2021-09-30 09:52
直面程序人生，始于當(dāng)下，奔赴未來！

閱讀 812·2021-09-26 09:55
微信小程序開發(fā)-斷網(wǎng)重新加載問題

閱讀 2788·2019-08-30 13:19
從零自己編寫一個(gè)React框架【中高級(jí)前端殺手锏級(jí)別技能】

閱讀 1904·2019-08-26 10:42
如何優(yōu)化你的超大型React應(yīng)用【原創(chuàng)精讀】

閱讀 3199·2019-08-26 10:17
前端基礎(chǔ)入門五（掌握jQuery的常用api，實(shí)現(xiàn)動(dòng)態(tài)效果）

閱讀 554·2019-08-23 14:52
立即收藏！2019前端工程師如何應(yīng)對(duì)裁員潮？

閱讀 3649·2019-08-23 14:39

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

selenium跳過webdriver檢測并爬取天貓商品數(shù)據(jù)

相關(guān)文章

***selenium跳過webdriver檢測并爬取淘寶我已購買的寶貝數(shù)據(jù)***

selenium跳過webdriver檢測并模擬登錄淘寶

selenium實(shí)戰(zhàn)：窗口化爬取寶數(shù)據(jù)*（附源碼鏈接）

**【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細(xì)新手實(shí)現(xiàn)（01）webdriv**

Python網(wǎng)頁信息采集：使用PhantomJS采集淘寶天貓商品內(nèi)容

發(fā)表評(píng)論

0條評(píng)論

codecook

男|高級(jí)講師

TA的文章

BLIINKER+ESP32編譯問題：some warnings being treated as

傲游主機(jī)(aoyoyun)，荷蘭CU2 VPS測評(píng)，走聯(lián)通AS10099/AS9929線路

直面程序人生，始于當(dāng)下，奔赴未來！

微信小程序開發(fā)-斷網(wǎng)重新加載問題

從零自己編寫一個(gè)React框架【中高級(jí)前端殺手锏級(jí)別技能】

如何優(yōu)化你的超大型React應(yīng)用【原創(chuàng)精讀】

前端基礎(chǔ)入門五（掌握jQuery的常用api，實(shí)現(xiàn)動(dòng)態(tài)效果）

立即收藏！2019前端工程師如何應(yīng)對(duì)裁員潮？

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

selenium跳過webdriver檢測并爬取天貓商品數(shù)據(jù)

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！