摘要:,所有筆記均托管于倉庫。中包含的字符串或等節(jié)點(diǎn)被視作該的或節(jié)點(diǎn)。為了便于在或節(jié)點(diǎn)中進(jìn)行導(dǎo)航,提供了許多與此相關(guān)的方法。節(jié)點(diǎn)名可使用節(jié)點(diǎn)名來選取目標(biāo)節(jié)點(diǎn),此時會返回子孫節(jié)點(diǎn)中的第一個同名節(jié)點(diǎn)。
GitHub@orca-j35,所有筆記均托管于 python_notes 倉庫。在解析樹中導(dǎo)航
歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處。
參考: Navigating the tree
在學(xué)習(xí)與解析樹相關(guān)的"導(dǎo)航字段"之前,我們需要先了解 BeautifulSoup 解析樹的結(jié)構(gòu),下面這段 HTML 和其解析樹如下:
markup = """To find out more see the standard.
""" soup = BeautifulSoup(markup, "lxml")
?"導(dǎo)航字段"的返回值總是節(jié)點(diǎn)對象(如,Tag 對象、NavigableString 對象),或由節(jié)點(diǎn)對象組成的列表(或迭代器)。
Going downTag 中包含的字符串或 Tag 等節(jié)點(diǎn)被視作該 Tag 的 children (或 descendants )節(jié)點(diǎn)。為了便于在 children (或 descendants )節(jié)點(diǎn)中進(jìn)行導(dǎo)航,BeautifulSoup 提供了許多與此相關(guān)的方法。
?BeautifulSoup 中的字符串節(jié)點(diǎn)(如,NavigableString和注釋)不支持與導(dǎo)航相關(guān)的屬性,因?yàn)樽址?jié)點(diǎn)永遠(yuǎn)不會包含任何 children 節(jié)點(diǎn)。
節(jié)點(diǎn)名可使用節(jié)點(diǎn)名來選取目標(biāo)節(jié)點(diǎn),此時會返回子孫節(jié)點(diǎn)中的第一個同名節(jié)點(diǎn)。
html_doc = """The Dormouse"s story The Dormouse"s story
Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well.
...
""" from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc, "html.parser") print(repr(f"{type(soup.head)}:{soup.head}")) print(repr(f"{type(soup.title)}:{soup.title}")) print(repr(f"{type(soup.a)}:{soup.a}"))
輸出:
".contents: The Dormouse"s story " ": The Dormouse"s story " ":Elsie"
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/45190.html
摘要:,所有筆記均托管于倉庫。是一個用來從或文件中提取數(shù)據(jù)的庫。如果對速度有嚴(yán)格要求,應(yīng)直接使用庫來解析。對而言,解析器的速度比或更快??梢酝ㄟ^安裝庫來顯著提升檢測編碼方案的速度。 GitHub@orca-j35,所有筆記均托管于 python_notes 倉庫。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處。 概述 ?官方文檔中混雜了 Py2 和 Py3 的術(shù)語和代碼,本筆記針對 Py3 梳理了文檔...
摘要:參考概述中定義了許多搜索解析樹的方法,但這些方法都非常類似,它們大多采用與相同的參數(shù)和,但是僅有和支持參數(shù)。本節(jié)會以作為示例過濾器過濾器用于在解析樹中篩選目標(biāo)節(jié)點(diǎn),被用作搜索方法的實(shí)參。如果函數(shù)返回,則保留該節(jié)點(diǎn),否則拋棄該節(jié)點(diǎn)。 GitHub@orca-j35,所有筆記均托管于 python_notes 倉庫。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處。參考: https://www.cr...
摘要:筆者看到了,覺得還蠻有意思的,因此,決定自己也寫一個玩玩首先我們的爬蟲要能將英語單詞翻譯成中文,因此,我們就需要一個網(wǎng)站幫助我們做這件事情。 ??最近在微信公眾號中看到有人用Python做了一個爬蟲,可以將輸入的英語單詞翻譯成中文,或者把中文詞語翻譯成英語單詞。筆者看到了,覺得還蠻有意思的,因此,決定自己也寫一個玩玩~~??首先我們的爬蟲要能將英語單詞翻譯成中文,因此,我們就需要一個網(wǎng)...
摘要:先打開花千骨小說的目錄頁,是這樣的。網(wǎng)頁結(jié)構(gòu)分析首先,目錄頁左上角有幾個可以提高你此次爬蟲成功后成就感的字眼暫不提供花千骨全集下載。打開盤查看花千骨文件。 知識就像碎布,記得縫一縫,你才能華麗麗地亮相。 1.Beautiful Soup 1.Beautifulsoup 簡介 此次實(shí)戰(zhàn)從網(wǎng)上爬取小說,需要使用到Beautiful Soup。Beautiful Soup為python的...
摘要:爬蟲之簡介提供一些簡單的式的函數(shù)用來處理導(dǎo)航搜索修改分析樹等功能。自動將輸入文檔轉(zhuǎn)換為編碼,輸出文檔轉(zhuǎn)換為編碼。已成為和一樣出色的解釋器,為用戶靈活地提供不同的解析策略或強(qiáng)勁的速度。 python爬蟲之BeautifulSoup 簡介 **Beautiful Soup提供一些簡單的、python式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取...
閱讀 2978·2021-11-25 09:43
閱讀 3600·2021-11-24 11:13
閱讀 3373·2021-10-14 09:42
閱讀 2578·2021-09-23 11:53
閱讀 3622·2021-09-22 15:57
閱讀 3234·2021-09-02 09:54
閱讀 3510·2019-08-30 13:47
閱讀 1650·2019-08-29 16:55