lxml 解析巨大深嵌套DOM樹的問題

Jokcy 發(fā)布于2019-08-27 10:58 / 2037人閱讀

摘要：使用進(jìn)行解析的時(shí)候，如果樹過深，就解析會(huì)提前中止。在時(shí)，調(diào)用的是類，而接收的參數(shù)，允許解析巨大樹，而又接收自定義，所以上述代碼修改為之后，就可以順利解析了。

今天客戶反映，我們的微信爬蟲，有一篇文章的信息不全：問題鏈接

仔細(xì)觀察之后，我們發(fā)現(xiàn)，這篇文章是由135微信編輯器生成的，正文內(nèi)容的DOM樹非常深，有幾百層。

使用 lxml.etree.HTML(text).xp(xpath)進(jìn)行解析的時(shí)候，如果DOM樹過深，就解析會(huì)提前中止。

在build etree時(shí)，調(diào)用的是lxml.etree.XMLParser 類，而XMLParser接收 huge_tree=True的參數(shù)，允許解析巨大DOM樹，而etree.HTML又接收自定義Parser，所以上述代碼修改為：

lxml.etree.HTML(text, lxml.etree.XMLParser(huge_tree=True)).xp(xpath)之后，就可以順利解析了。

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/110407.html

相關(guān)文章

lxml 解析巨大深嵌套DOM樹的問題

摘要：使用進(jìn)行解析的時(shí)候，如果樹過深，就解析會(huì)提前中止。在時(shí)，調(diào)用的是類，而接收的參數(shù)，允許解析巨大樹，而又接收自定義，所以上述代碼修改為之后，就可以順利解析了。今天客戶反映，我們的微信爬蟲，有一篇文章的信息不全：問題鏈接仔細(xì)觀察之后，我們發(fā)現(xiàn)，這篇文章是由135微信編輯器生成的，正文內(nèi)容的DOM樹非常深，有幾百層。使用 lxml.etree.HTML(text).xp(xpath)進(jìn)...

warnerwu 2019-07-30 18:33 評論0 收藏0
從渲染原理談前端性能優(yōu)化

摘要：通過主機(jī)名，最終得到該主機(jī)名對應(yīng)的地址的過程叫做域名解析或主機(jī)名解析。因此去掉不必要的資源和資源合并包括及資源合并雪碧圖等才會(huì)成為性能優(yōu)化繞不開的方案。作者：李佳曉原文：學(xué)而思網(wǎng)校技術(shù)團(tuán)隊(duì) 前言合格的開發(fā)者知道怎么做，而優(yōu)秀的開發(fā)者知道為什么這么做。這句話來自《web性能權(quán)威指南》，我一直很喜歡，而本文嘗試從瀏覽器渲染原理探討如何進(jìn)行性能提升。全文將從網(wǎng)絡(luò)通信以及頁面渲染兩個(gè)...

everfly 2019-08-23 18:10 評論0 收藏0
一年內(nèi)經(jīng)驗(yàn)前端面試題記錄

摘要：對于，其默認(rèn)大小一般是本地存儲(chǔ)和都保存在瀏覽器端，且都是同源的。把變量放在閉包中和放在全局作用域，對內(nèi)存的影響是一致的，這里并不能說成是內(nèi)存泄露。將新的樹和之前的虛擬樹進(jìn)行相比較，根據(jù)結(jié)果對進(jìn)行精準(zhǔn)響應(yīng)。 1. JavaScript 1. JavaScript文件在什么情況下會(huì)放在html哪個(gè)位置 https://zhuanlan.zhihu.com/p/... 對于必須要在DOM加載...

qianfeng 2019-08-29 17:12 評論0 收藏0
一年內(nèi)經(jīng)驗(yàn)前端面試題記錄

摘要：對于，其默認(rèn)大小一般是本地存儲(chǔ)和都保存在瀏覽器端，且都是同源的。把變量放在閉包中和放在全局作用域，對內(nèi)存的影響是一致的，這里并不能說成是內(nèi)存泄露。將新的樹和之前的虛擬樹進(jìn)行相比較，根據(jù)結(jié)果對進(jìn)行精準(zhǔn)響應(yīng)。 1. JavaScript 1. JavaScript文件在什么情況下會(huì)放在html哪個(gè)位置 https://zhuanlan.zhihu.com/p/... 對于必須要在DOM加載...

kelvinlee 2019-08-23 12:52 評論0 收藏0

發(fā)表評論

登陸后可評論

0條評論

Jokcy

男|高級講師

我要關(guān)注我要私信

TA的文章

httprunner2.5.7參數(shù)化三種方式

閱讀 1473·2021-11-11 16:54
整理一些售賣IPv6 Only VPS的商家

閱讀 9633·2021-11-02 14:44
FastComet：萬圣節(jié)大甩賣 2021，主機(jī)促銷優(yōu)惠，共享主機(jī)享70%折扣，vps/專用服務(wù)器3

閱讀 2411·2021-10-22 09:53
塊格式化上下文（BFC）解決元素浮動(dòng)、文字環(huán)繞問題

閱讀 3287·2019-08-30 11:18
數(shù)據(jù)與前端

閱讀 1980·2019-08-29 13:29
lxml 解析巨大深嵌套DOM樹的問題

閱讀 2038·2019-08-27 10:58
利用angular4和nodejs-express構(gòu)建一個(gè)簡單的網(wǎng)站（二）——設(shè)置跨域訪問和安裝基本

閱讀 1661·2019-08-26 11:38
前端動(dòng)畫專題（三）：撩人的按鈕特效

閱讀 3550·2019-08-26 10:31

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！