摘要:用戶(hù)確認(rèn)后存儲(chǔ)。詳情文本類(lèi)子元素最多的元素,且頁(yè)面面積占用最大。后處理詳情希望保留詳情的一些排版,比如代碼塊,高亮區(qū)域等。在使用時(shí)轉(zhuǎn)回顯示。
列表頁(yè)解析 列表定位
同性質(zhì)子元素排序
元素面積排序
用戶(hù)確認(rèn)區(qū)域后元素xpath并存儲(chǔ)
分頁(yè)按鈕定位不包含子元素且文字包含“下一頁(yè),點(diǎn)擊查看更多”等文字的標(biāo)簽。
調(diào)用dom.click()方法自動(dòng)進(jìn)入下一頁(yè),或者提取鏈接,存儲(chǔ)xpath
列表項(xiàng)解析標(biāo)題解析:列表項(xiàng)中字體權(quán)重最大的標(biāo)簽為標(biāo)題。用戶(hù)確認(rèn)后存儲(chǔ)xpath。
詳情鏈接提?。簶?biāo)題往上找到a標(biāo)簽。解析后存儲(chǔ)xpath
封面解析:列表項(xiàng)中面積最大的圖片。存儲(chǔ)xpath
詳情頁(yè)解析 內(nèi)容識(shí)別標(biāo)題:標(biāo)題使用列表項(xiàng)的標(biāo)題即可。
詳情:文本類(lèi)子元素最多的元素,且頁(yè)面面積占用最大。存儲(chǔ)xpath。
時(shí)間解析:正則匹配時(shí)間即可,匹配到之后嘗試緩存xpath。
來(lái)源解析:正則匹配即可,同上。
后處理詳情:希望保留詳情的一些排版,比如代碼塊,高亮區(qū)域等。將HTML轉(zhuǎn)為Markdown即可。在使用時(shí)轉(zhuǎn)回HTML顯示。
時(shí)間:使用dateparser將時(shí)間轉(zhuǎn)為ISO8601標(biāo)準(zhǔn)時(shí)間或者時(shí)間戳即可。
存儲(chǔ):建議存儲(chǔ)至MongoDB,無(wú)需提前定義表結(jié)構(gòu)。
上述方案兼容90%的標(biāo)準(zhǔn)網(wǎng)站,比如拉鉤,京東,segmentfault,v2ex,58同城等等。
DEMO已經(jīng)開(kāi)發(fā)完畢,交流討論或者商業(yè)合作請(qǐng)發(fā)站內(nèi)信。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/45078.html
摘要:用戶(hù)確認(rèn)后存儲(chǔ)。詳情文本類(lèi)子元素最多的元素,且頁(yè)面面積占用最大。后處理詳情希望保留詳情的一些排版,比如代碼塊,高亮區(qū)域等。在使用時(shí)轉(zhuǎn)回顯示。 列表頁(yè)解析 showImg(https://segmentfault.com/img/bVbuH5K?w=1774&h=1532); 列表定位 同性質(zhì)子元素排序 元素面積排序 用戶(hù)確認(rèn)區(qū)域后元素xpath并存儲(chǔ) 分頁(yè)按鈕定位 不包含子元素且...
摘要:歡迎來(lái)我的個(gè)人站點(diǎn)性能優(yōu)化其他優(yōu)化瀏覽器關(guān)鍵渲染路徑開(kāi)啟性能優(yōu)化之旅高性能滾動(dòng)及頁(yè)面渲染優(yōu)化理論寫(xiě)法對(duì)壓縮率的影響唯快不破應(yīng)用的個(gè)優(yōu)化步驟進(jìn)階鵝廠大神用直出實(shí)現(xiàn)網(wǎng)頁(yè)瞬開(kāi)緩存網(wǎng)頁(yè)性能管理詳解寫(xiě)給后端程序員的緩存原理介紹年底補(bǔ)課緩存機(jī)制優(yōu)化動(dòng) 歡迎來(lái)我的個(gè)人站點(diǎn) 性能優(yōu)化 其他 優(yōu)化瀏覽器關(guān)鍵渲染路徑 - 開(kāi)啟性能優(yōu)化之旅 高性能滾動(dòng) scroll 及頁(yè)面渲染優(yōu)化 理論 | HTML寫(xiě)法...
摘要:歡迎來(lái)我的個(gè)人站點(diǎn)性能優(yōu)化其他優(yōu)化瀏覽器關(guān)鍵渲染路徑開(kāi)啟性能優(yōu)化之旅高性能滾動(dòng)及頁(yè)面渲染優(yōu)化理論寫(xiě)法對(duì)壓縮率的影響唯快不破應(yīng)用的個(gè)優(yōu)化步驟進(jìn)階鵝廠大神用直出實(shí)現(xiàn)網(wǎng)頁(yè)瞬開(kāi)緩存網(wǎng)頁(yè)性能管理詳解寫(xiě)給后端程序員的緩存原理介紹年底補(bǔ)課緩存機(jī)制優(yōu)化動(dòng) 歡迎來(lái)我的個(gè)人站點(diǎn) 性能優(yōu)化 其他 優(yōu)化瀏覽器關(guān)鍵渲染路徑 - 開(kāi)啟性能優(yōu)化之旅 高性能滾動(dòng) scroll 及頁(yè)面渲染優(yōu)化 理論 | HTML寫(xiě)法...
摘要:歡迎來(lái)我的個(gè)人站點(diǎn)性能優(yōu)化其他優(yōu)化瀏覽器關(guān)鍵渲染路徑開(kāi)啟性能優(yōu)化之旅高性能滾動(dòng)及頁(yè)面渲染優(yōu)化理論寫(xiě)法對(duì)壓縮率的影響唯快不破應(yīng)用的個(gè)優(yōu)化步驟進(jìn)階鵝廠大神用直出實(shí)現(xiàn)網(wǎng)頁(yè)瞬開(kāi)緩存網(wǎng)頁(yè)性能管理詳解寫(xiě)給后端程序員的緩存原理介紹年底補(bǔ)課緩存機(jī)制優(yōu)化動(dòng) 歡迎來(lái)我的個(gè)人站點(diǎn) 性能優(yōu)化 其他 優(yōu)化瀏覽器關(guān)鍵渲染路徑 - 開(kāi)啟性能優(yōu)化之旅 高性能滾動(dòng) scroll 及頁(yè)面渲染優(yōu)化 理論 | HTML寫(xiě)法...
摘要:我最開(kāi)始學(xué)習(xí)編程的時(shí)候也是如此,摸索了非常久的時(shí)間,才慢慢找到自己高效學(xué)習(xí)方法。被動(dòng)的學(xué)習(xí)方式聽(tīng)講閱讀視聽(tīng)演示,只能讓你做到內(nèi)容留存率的和的知識(shí)。而主動(dòng)的學(xué)習(xí)方式,如通過(guò)討論實(shí)踐教授給他人,會(huì)將原來(lái)被動(dòng)學(xué)習(xí)的內(nèi)容留存率從提升到和。 showImg(https://segmentfault.com/img/remote/1460000016856679); 閱讀文本大概需要 7 分鐘。 ...
閱讀 719·2021-11-22 13:54
閱讀 3081·2021-09-26 10:16
閱讀 3510·2021-09-08 09:35
閱讀 1590·2019-08-30 15:55
閱讀 3438·2019-08-30 15:54
閱讀 2085·2019-08-30 10:57
閱讀 503·2019-08-29 16:25
閱讀 884·2019-08-29 16:15