小編寫這篇文章的主要目的,就是給大家介紹關(guān)于Python的一些總結(jié),比如使用Python爬蟲Xpath定位數(shù)據(jù),那么,在定位數(shù)據(jù)的時候,有兩種方法,具體有什么方法介紹呢?下面就給大家詳細的解答下。
方法一:直接右鍵,將文章路徑復制下來點擊Copy full Xpath
使用selenium+lxml中的etree進行配合使用,使用etree解析html網(wǎng)頁
import requests from lxml import etree import time import socket import csv from selenium import webdriver from configparser import ConfigParser from selenium.webdriver import Chrome from selenium.webdriver import ChromeOptions #禁止圖片和css加載 chrome_options=webdriver.ChromeOptions() prefs={"profile.managed_default_content_settings.images":2} chrome_options.add_experimental_option("prefs",prefs) option=ChromeOptions() option.add_experimental_option('excludeSwitches',['enable-automation']) #如果想加載圖片,就把下面第二句話改第一句話,刪掉上面的“禁止圖片和css加載”部分 #wb=Chrome(options=option) wb=webdriver.Chrome(options=chrome_options) #最大化窗口、輸入網(wǎng)址、等待至網(wǎng)頁加載完成(防止元素還沒加載出來就開始爬了這樣自然爬不到數(shù)據(jù)。如果一直加載不出就等10秒,加載好了就立刻結(jié)束等待) wb.maximize_window() wb.get("https://www.tianyancha.com/") wb.implicitly_wait(5) 然后獲取網(wǎng)頁數(shù)據(jù),這里表明哪怕后面出錯了,仍然可以延續(xù)wb的位置繼續(xù)控制瀏覽器 data=wb.page_source time.sleep(3) data=wb.page_source time.sleep(3) page_all.append(data) html=etree.HTML(data) company=html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()') print(company)
方法二:使用制定標簽屬性,搜索指定位置
這樣的好處就是,對于批量處理的網(wǎng)頁,有的標簽位置不在同一個地方,那么我們就是不使用全Xpath路徑,而使用相對路徑,用制定某種屬性的標簽,下載相關(guān)數(shù)據(jù)
"//div[class='mainArea']/ul/li"
使用//div[class=‘mainArea’]的意思是:從根部(//)查找class值為mainArea的Node.
所以,那么就很簡單了//某元素[class=‘CLASS值’]
大家可以按照這個公式來查找class的元素了。
剩下的/ul/li表示的是,繼續(xù)查找class='mainArea’的div包括的ul元素下面的li節(jié)點集合。
這篇內(nèi)容就為大家介紹到這里了,希望可以給大家?guī)砀鄮椭?/p>
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/128254.html
摘要:然而讓蟲師們垂涎的并不是以上的種種,而是其通過驅(qū)動瀏覽器獲得的解析的能力。所以說這貨在動態(tài)爬取方面簡直是掛逼級別的存在,相較于手動分析更簡單易用,節(jié)省分析打碼時間。一旦設置了隱式等待時間,它的作用范圍就是對象實例的整個生命周期。 selenium——自動化測試工具,專門為Web應用程序編寫的一個驗收測試工具,測試其兼容性,功能什么的。然而讓蟲師們垂涎的并不是以上的種種,而是其通過驅(qū)動瀏...
摘要:起初的提出的初衷是將其作為一個通用的介于與間的語法模型。的基本使用要使用我們需要下載,在爬蟲入門到精通環(huán)境的搭建這一章也說明怎么裝,如果還沒有安裝的話,那就去下載安裝吧直接看代碼實戰(zhàn)吧。 本文章屬于爬蟲入門到精通系統(tǒng)教程第六講 在爬蟲入門到精通第五講中,我們了解了如何用正則表達式去抓取我們想要的內(nèi)容.這一章我們來學習如何更加簡單的來獲取我們想要的內(nèi)容. xpath的解釋 XPath即為...
摘要:上一篇文章網(wǎng)絡爬蟲實戰(zhàn)與正則表達式抓取貓眼電影排行下一篇文章網(wǎng)絡爬蟲實戰(zhàn)解析庫的使用上一節(jié)我們實現(xiàn)了一個最基本的爬蟲,但提取頁面信息時我們使用的是正則表達式,用過之后我們會發(fā)現(xiàn)構(gòu)造一個正則表達式還是比較的繁瑣的,而且萬一有一點地 上一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---27、Requests與正則表達式抓取貓眼電影排行下一篇文章:Python3網(wǎng)絡爬蟲實戰(zhàn)---29、解析庫的使用:...
摘要:介紹是一個用于應用程序測試的工具,測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。支持的瀏覽器包括,,,,,等,它在的領域里的引用能使初學者大大的省去解析網(wǎng)頁中代加密的一些麻煩。 Selenium介紹 Selenium 是一個用于Web應用程序測試的工具,Selenium測試直接運行在瀏覽...
摘要:所以只要得到登錄后的并必要時進行更新,服務器就會認定其為登錄狀態(tài)??纯慈思抑?,加密到連名字都沒有了,還混淆,如何下手綜上,適用于沒有加密的登錄或者加密算法比較簡單并且不常更新的網(wǎng)站。遇上無解的加密算法要么手操拷貝,要么請大佬出場。 某些網(wǎng)站,登錄和沒登錄,用戶的權(quán)限是不一樣的,帳號登錄之后才能獲取更多的信息。更有甚者一上來就是登錄界面,不登錄就不給你進去(如p站)。爬取目標不用登錄固...
閱讀 923·2023-01-14 11:38
閱讀 895·2023-01-14 11:04
閱讀 756·2023-01-14 10:48
閱讀 2055·2023-01-14 10:34
閱讀 961·2023-01-14 10:24
閱讀 840·2023-01-14 10:18
閱讀 510·2023-01-14 10:09
閱讀 588·2023-01-14 10:02