成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

XXL-CRAWLER v1.2.2 發(fā)布,分布式爬蟲框架

zhaofeihao / 1884人閱讀

摘要:新特性系統(tǒng)底層重構(gòu),規(guī)范包名采集線程白名單過濾優(yōu)化,避免冗余失敗重試增強(qiáng)渲染方式采集能力,原生新提供,支持以方式采集頁面數(shù)據(jù)支持采集非頁面,如接口等,直接輸出響應(yīng)數(shù)據(jù)選擇即可簡介是一個分布式爬蟲框架。默認(rèn)提供單機(jī)版爬蟲。

v1.2.2 新特性

1、系統(tǒng)底層重構(gòu),規(guī)范包名;

2、采集線程白名單過濾優(yōu)化,避免冗余失敗重試;

3、增強(qiáng)JS渲染方式采集能力,原生新提供 "SeleniumPhantomjsPageLoader",支持以 "selenisum + phantomjs" 方式采集頁面數(shù)據(jù);

4、支持采集非Web頁面,如JSON接口等,直接輸出響應(yīng)數(shù)據(jù);選擇 "NonPageParser" 即可;

簡介

XXL-CRAWLER 是一個分布式爬蟲框架。一行代碼開發(fā)一個分布式爬蟲,擁有"多線程、異步、IP動態(tài)代理、分布式、JS渲染"等特性;

特性

1、簡潔:API直觀簡潔,可快速上手;

2、輕量級:底層實(shí)現(xiàn)僅強(qiáng)依賴jsoup,簡潔高效;

3、模塊化:模塊化的結(jié)構(gòu)設(shè)計,可輕松擴(kuò)展

4、面向?qū)ο螅褐С滞ㄟ^注解,方便的映射頁面數(shù)據(jù)到PageVO對象,底層自動完成PageVO對象的數(shù)據(jù)抽取和封裝返回;單個頁面支持抽取一個或多個PageVO

5、多線程:線程池方式運(yùn)行,提高采集效率;

6、分布式支持:通過擴(kuò)展 "RunData" 模塊,并結(jié)合Redis或DB共享運(yùn)行數(shù)據(jù)可實(shí)現(xiàn)分布式。默認(rèn)提供LocalRunData單機(jī)版爬蟲。

7、JS渲染:通過擴(kuò)展 "PageLoader" 模塊,支持采集JS動態(tài)渲染數(shù)據(jù)。原生提供 Jsoup(非JS渲染,速度更快)、HtmlUnit(JS渲染)、Selenium+Phantomjs(JS渲染,兼容性高) 等多種實(shí)現(xiàn),支持自由擴(kuò)展其他實(shí)現(xiàn)。

8、失敗重試:請求失敗后重試,并支持設(shè)置重試次數(shù);

9、代理IP:對抗反采集策略規(guī)則WAF;

10、動態(tài)代理:支持運(yùn)行時動態(tài)調(diào)整代理池,以及自定義代理池路由策略;

11、異步:支持同步、異步兩種方式運(yùn)行;

12、擴(kuò)散全站:支持以現(xiàn)有URL為起點(diǎn)擴(kuò)散爬取整站;

13、去重:防止重復(fù)爬取;

14、URL白名單:支持設(shè)置頁面白名單正則,過濾URL;

15、自定義請求信息,如:請求參數(shù)、Cookie、Header、UserAgent輪詢、Referrer等;

16、動態(tài)參數(shù):支持運(yùn)行時動態(tài)調(diào)整請求參數(shù);

17、超時控制:支持設(shè)置爬蟲請求的超時時間;

18、主動停頓:爬蟲線程處理完頁面之后進(jìn)行主動停頓,避免過于頻繁被攔截;

文檔地址

中文文檔

技術(shù)交流

社區(qū)交流

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/71834.html

相關(guān)文章

  • XXL-CRAWLER v1.2.1 發(fā)布

    摘要:版本新特性渲染支持渲染方式采集數(shù)據(jù),可參考爬蟲示例抽象并設(shè)計,方便自定義和擴(kuò)展頁面加載邏輯,如渲染等。默認(rèn)提供單機(jī)版爬蟲。渲染通過擴(kuò)展模塊,支持采集動態(tài)渲染數(shù)據(jù)。原生提供快速推薦和較慢渲染兩種實(shí)現(xiàn),支持自由擴(kuò)展其他實(shí)現(xiàn)。 版本新特性 1、JS渲染:支持JS渲染方式采集數(shù)據(jù),可參考 爬蟲示例6; 2、抽象并設(shè)計PageLoader,方便自定義和擴(kuò)展頁面加載邏輯,如JS渲染等。底層提供 ...

    keithyau 評論0 收藏0
  • 面向?qū)ο蟮?em>分布式爬蟲框架XXL-CRAWLER

    摘要:面向?qū)ο蟮姆植际脚老x框架一簡介概述是一個面向?qū)ο蟮姆植际脚老x框架。分布式集群集群方式維護(hù)爬蟲爬蟲運(yùn)行數(shù)據(jù),可通過或定制實(shí)現(xiàn)。 《面向?qū)ο蟮姆植际脚老x框架XXL-CRAWLER》 showImg(https://segmentfault.com/img/remote/1460000011842697);showImg(https://segmentfault.com/img/remote...

    anquan 評論0 收藏0
  • 爬蟲平臺Crawlab v0.2發(fā)布

    摘要:是一個專注于爬蟲的集成了爬蟲管理任務(wù)調(diào)度任務(wù)監(jiān)控數(shù)據(jù)分析等模塊的分布式爬蟲管理平臺,非常適合對爬蟲管理爬蟲工程化有要求的開發(fā)者及企業(yè)。從目前開源的框架來看,大部分爬蟲平臺是以為核心,因此只能支持框架的爬蟲,而不僅支持,還支持其他框架的爬蟲。 showImg(https://segmentfault.com/img/remote/1460000019143107?w=2559&h=112...

    yiliang 評論0 收藏0
  • 海航生態(tài)科技輿情大數(shù)據(jù)平臺容器化改造

    摘要:本文轉(zhuǎn)載自微信公眾號賬號,作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)應(yīng)用容器化架構(gòu)遷移持續(xù)發(fā)布與部署。 本文轉(zhuǎn)載自微信公眾號Docker(賬號:dockerone),作者為海航生態(tài)科技技術(shù)研究院大數(shù)據(jù)開發(fā)工程師高顏。 文章介紹了海航生態(tài)科技輿情大數(shù)據(jù)平臺的容器化改造經(jīng)驗(yàn),包括初期技術(shù)架構(gòu)、應(yīng)用容器化、架構(gòu)遷...

    idealcn 評論0 收藏0
  • 利用 scrapy 集成社區(qū)爬蟲功能

    摘要:為了方便用戶展示自己的社區(qū)資料,雨點(diǎn)兒網(wǎng)中增加了一個社區(qū)爬蟲功能。方案使用運(yùn)行爬蟲鑒于項(xiàng)目當(dāng)前的架構(gòu),準(zhǔn)備使用來執(zhí)行異步爬蟲??梢酝瑫r執(zhí)行多個爬蟲,最大進(jìn)程數(shù)可配,防止系統(tǒng)過載。尾歡迎使用我們的爬蟲功能來收集社交資料。 序 社區(qū)活躍度或者貢獻(xiàn)越來越受到重視,往往會作為獲得工作或者承接項(xiàng)目的加分項(xiàng)。為了方便用戶展示自己的社區(qū)資料,雨點(diǎn)兒網(wǎng)中增加了一個社區(qū)爬蟲功能。 當(dāng)前只爬取了用戶主頁上...

    Yangyang 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<