成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

立即前往

python爬蟲網(wǎng)頁提取器——xpath

andycall 發(fā)布于2019-07-24 18:16 / 2584人閱讀

xpath簡單來說就是根據(jù)網(wǎng)頁的源碼路徑去找你想要的的信息。
例子：

html="""



    
    測試-常規(guī)用法



    
        這是第一條信息
        這是第二條信息
        這是第三條信息
    
    
        不需要的信息1
        不需要的信息2
        不需要的信息3
    

    
        極客學(xué)院
        點我打開課程庫
    




"""

設(shè)網(wǎng)頁文本如上：
xpath簡單提取方法（chrome的審查元素有xpath的提取方式）

# -*- coding:utf-8 -*-
from lxml import etree#導(dǎo)入xpath
selector=etree.HTML(html, parser=None, base_url=None)

#提取文本
context=selector.xpath("http://*[@id="useful"]/li/text()")
for each in context:
    print each
#結(jié)果顯示：這是第一條信息
#這是第二條信息
#這是第三條信息




#提取屬性
link=selector.xpath("http://*[@id="url"]/a/@href")
for each in link:
    print each
#結(jié)果顯示：http://jikexueyuan.com
#http://jikexueyuan.com/course/



#提取標(biāo)題
title=selector.xpath("http://*[@id="url"]/a/@title")
print title[0]
#結(jié)果顯示：極客學(xué)院課程庫

云服務(wù)器 GPU云服務(wù)器網(wǎng)頁爬蟲python python網(wǎng)頁爬蟲網(wǎng)頁提取網(wǎng)頁內(nèi)容提取

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/37654.html

相關(guān)文章

Scrapy 框架入門簡介

摘要：解析的方法，每個初始完成下載后將被調(diào)用，調(diào)用的時候傳入從每一個傳回的對象來作為唯一參數(shù)，主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁數(shù)據(jù)，提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁的請求。 Scrapy 框架 Scrapy是用純Python實現(xiàn)一個為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架，用途非常廣泛。框架的力量，用戶只需要定制開發(fā)幾個模塊就可以輕松的實現(xiàn)一個爬蟲，用來抓取網(wǎng)頁內(nèi)容以及各種圖片，非常...

Coding01 2019-07-30 15:39 評論0 收藏0
Python即時網(wǎng)絡(luò)爬蟲：API說明

摘要：用于數(shù)據(jù)分析和數(shù)據(jù)挖掘的網(wǎng)絡(luò)爬蟲程序中，內(nèi)容提取器是影響通用性的關(guān)鍵障礙，如果這個提取器是從獲得的，您的網(wǎng)絡(luò)爬蟲程序就能寫成通用的框架。，相關(guān)文檔，即時網(wǎng)絡(luò)爬蟲項目內(nèi)容提取器的定義，集搜客開源代碼下載源，開源網(wǎng)絡(luò)爬蟲源，文檔修改歷史， showImg(https://segmentfault.com/img/bVynLk); API說明——下載gsExtractor內(nèi)容提取器 1，接口...

genefy 2019-07-25 10:32 評論0 收藏0
Python Scrapy爬蟲框架學(xué)習(xí)

摘要：組件引擎負(fù)責(zé)控制數(shù)據(jù)流在系統(tǒng)中所有組件中流動，并在相應(yīng)動作發(fā)生時觸發(fā)事件。下載器下載器負(fù)責(zé)獲取頁面數(shù)據(jù)并提供給引擎，而后提供給。下載器中間件下載器中間件是在引擎及下載器之間的特定鉤子，處理傳遞給引擎的。 Scrapy 是用Python實現(xiàn)一個為爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。一、Scrapy框架簡介 Scrapy是一個為了爬取網(wǎng)站數(shù)據(jù)，提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。 ...

harriszh 2019-07-31 11:00 評論0 收藏0
Python使用xslt提取網(wǎng)頁數(shù)據(jù)

摘要：，用庫實現(xiàn)網(wǎng)頁內(nèi)容提取是的一個庫，可以迅速靈活地處理。，集搜客開源代碼下載源開源網(wǎng)絡(luò)爬蟲源，文檔修改歷史，增補(bǔ)文字說明把跟帖的代碼補(bǔ)充了進(jìn)來，增加最后一章源代碼下載源 showImg(https://segmentfault.com/img/bVvBTt); 1，引言在Python網(wǎng)絡(luò)爬蟲內(nèi)容提取器一文我們詳細(xì)講解了核心部件：可插拔的內(nèi)容提取器類gsExtractor。本文記錄了確定...

mdluo 2019-07-25 10:22 評論0 收藏0
[爬蟲手記] 我是如何在3分鐘內(nèi)開發(fā)完一個爬蟲的

摘要：前言開發(fā)爬蟲是一件有趣的事情。的可配置爬蟲是基于的，因此天生是支持并發(fā)的。遵守協(xié)議這個默認(rèn)是開啟的。的可配置爬蟲降低了爬蟲的開發(fā)時間，增加了爬蟲開發(fā)效率，完善了工程化水平，將爬蟲工程師從日常的繁瑣配置工作中解放出來。前言開發(fā)爬蟲是一件有趣的事情。寫一個程序，對感興趣的目標(biāo)網(wǎng)站發(fā)起HTTP請求，獲取HTML，解析HTML，提取數(shù)據(jù)，將數(shù)據(jù)保存到數(shù)據(jù)庫或者存為CSV、JSON等格式，再...

sushi 2019-07-31 10:28 評論0 收藏0