摘要:版本新特性渲染支持渲染方式采集數(shù)據(jù),可參考爬蟲示例抽象并設(shè)計(jì),方便自定義和擴(kuò)展頁(yè)面加載邏輯,如渲染等。默認(rèn)提供單機(jī)版爬蟲。渲染通過(guò)擴(kuò)展模塊,支持采集動(dòng)態(tài)渲染數(shù)據(jù)。原生提供快速推薦和較慢渲染兩種實(shí)現(xiàn),支持自由擴(kuò)展其他實(shí)現(xiàn)。
版本新特性
1、JS渲染:支持JS渲染方式采集數(shù)據(jù),可參考 "爬蟲示例6";
2、抽象并設(shè)計(jì)PageLoader,方便自定義和擴(kuò)展頁(yè)面加載邏輯,如JS渲染等。底層提供 "JsoupPageLoader(默認(rèn)/推薦)","HtmlUnitPageLoader"兩種實(shí)現(xiàn),可自定義其他類型PageLoader如 "Selenium" 等;
3、修復(fù)Jsoup默認(rèn)加載1M的限制;
4、爬蟲線程中斷處理優(yōu)化;
簡(jiǎn)介XXL-CRAWLER 是一個(gè)面向?qū)ο蟮姆植际脚老x框架。一行代碼開發(fā)一個(gè)分布式爬蟲,擁有"多線程、異步、IP動(dòng)態(tài)代理、分布式、JS渲染"等特性;
特性1、簡(jiǎn)潔:API直觀簡(jiǎn)潔,可快速上手;
2、輕量級(jí):底層實(shí)現(xiàn)僅強(qiáng)依賴jsoup,簡(jiǎn)潔高效;
3、模塊化:模塊化的結(jié)構(gòu)設(shè)計(jì),可輕松擴(kuò)展
4、面向?qū)ο螅褐С滞ㄟ^(guò)注解,方便的映射頁(yè)面數(shù)據(jù)到PageVO對(duì)象,底層自動(dòng)完成PageVO對(duì)象的數(shù)據(jù)抽取和封裝返回;單個(gè)頁(yè)面支持抽取一個(gè)或多個(gè)PageVO
5、多線程:線程池方式運(yùn)行,提高采集效率;
6、分布式支持:通過(guò)擴(kuò)展 "RunData" 模塊,并結(jié)合Redis或DB共享運(yùn)行數(shù)據(jù)可實(shí)現(xiàn)分布式。默認(rèn)提供LocalRunData單機(jī)版爬蟲。
7、JS渲染:通過(guò)擴(kuò)展 "PageLoader" 模塊,支持采集JS動(dòng)態(tài)渲染數(shù)據(jù)。原生提供Jsoup(快速、推薦)和HtmlUnit(較慢、JS渲染)兩種實(shí)現(xiàn),支持自由擴(kuò)展其他實(shí)現(xiàn)。
8、失敗重試:請(qǐng)求失敗后重試,并支持設(shè)置重試次數(shù);
9、代理IP:對(duì)抗反采集策略規(guī)則WAF;
10、動(dòng)態(tài)代理:支持運(yùn)行時(shí)動(dòng)態(tài)調(diào)整代理池,以及自定義代理池路由策略;
11、異步:支持同步、異步兩種方式運(yùn)行;
12、擴(kuò)散全站:支持以現(xiàn)有URL為起點(diǎn)擴(kuò)散爬取整站;
13、去重:防止重復(fù)爬??;
14、URL白名單:支持設(shè)置頁(yè)面白名單正則,過(guò)濾URL;
15、自定義請(qǐng)求信息,如:請(qǐng)求參數(shù)、Cookie、Header、UserAgent輪詢、Referrer等;
16、動(dòng)態(tài)參數(shù):支持運(yùn)行時(shí)動(dòng)態(tài)調(diào)整請(qǐng)求參數(shù);
17、超時(shí)控制:支持設(shè)置爬蟲請(qǐng)求的超時(shí)時(shí)間;
18、主動(dòng)停頓:爬蟲線程處理完頁(yè)面之后進(jìn)行主動(dòng)停頓,避免過(guò)于頻繁被攔截;
文檔地址中文文檔
技術(shù)交流社區(qū)交流
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/70931.html
摘要:面向?qū)ο蟮姆植际脚老x框架一簡(jiǎn)介概述是一個(gè)面向?qū)ο蟮姆植际脚老x框架。分布式集群集群方式維護(hù)爬蟲爬蟲運(yùn)行數(shù)據(jù),可通過(guò)或定制實(shí)現(xiàn)。 《面向?qū)ο蟮姆植际脚老x框架XXL-CRAWLER》 showImg(https://segmentfault.com/img/remote/1460000011842697);showImg(https://segmentfault.com/img/remote...
摘要:新特性系統(tǒng)底層重構(gòu),規(guī)范包名采集線程白名單過(guò)濾優(yōu)化,避免冗余失敗重試增強(qiáng)渲染方式采集能力,原生新提供,支持以方式采集頁(yè)面數(shù)據(jù)支持采集非頁(yè)面,如接口等,直接輸出響應(yīng)數(shù)據(jù)選擇即可簡(jiǎn)介是一個(gè)分布式爬蟲框架。默認(rèn)提供單機(jī)版爬蟲。 v1.2.2 新特性 1、系統(tǒng)底層重構(gòu),規(guī)范包名; 2、采集線程白名單過(guò)濾優(yōu)化,避免冗余失敗重試; 3、增強(qiáng)JS渲染方式采集能力,原生新提供 SeleniumPha...
摘要:導(dǎo)讀阿里巴巴千億交易背后,如何盡量避免發(fā)布故障在面對(duì)實(shí)際運(yùn)維過(guò)程中遇到的問(wèn)題該如何解決近日,在大會(huì)上,阿里巴巴運(yùn)維技術(shù)專家少荃,給我們帶來(lái)了解決方案和思路。在阿里,這些屏幕包括監(jiān)控發(fā)布單機(jī)器故障預(yù)警等。 導(dǎo)讀:阿里巴巴千億交易背后,如何盡量避免發(fā)布故障?在面對(duì)實(shí)際運(yùn)維過(guò)程中遇到的問(wèn)題該如何解決?近日,在GOPS大會(huì)上,阿里巴巴運(yùn)維技術(shù)專家少荃,給我們帶來(lái)了解決方案和思路。 showIm...
閱讀 2444·2021-10-09 09:44
閱讀 3817·2021-09-22 15:43
閱讀 2934·2021-09-02 09:47
閱讀 2556·2021-08-12 13:29
閱讀 3879·2019-08-30 15:43
閱讀 1689·2019-08-30 13:06
閱讀 2195·2019-08-29 16:07
閱讀 2756·2019-08-29 15:23