成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

webmagic小試牛刀

stefan / 3132人閱讀

摘要:序是里頭比較優(yōu)秀的一個爬蟲框架使用作為解析工具,并基于其開發(fā)了解析的工具。默認使用了作為下載工具。這里展示一下入門級使用。

webmagic是java里頭比較優(yōu)秀的一個爬蟲框架:

使用Jsoup作為HTML解析工具,并基于其開發(fā)了解析XPath的工具Xsoup。

默認使用了Apache HttpClient作為下載工具。

這里展示一下入門級使用。

maven
        
            us.codecraft
            webmagic-core
            0.7.3
        
        
            us.codecraft
            webmagic-extension
            0.7.3
        
啟動類
public static void main(String[] args) {
    Spider.create(new GithubRepoPageProcessor())
            //從https://github.com/code4craft開始抓    
            .addUrl("https://github.com/code4craft")
            //設(shè)置Scheduler,使用Redis來管理URL隊列
            .setScheduler(new RedisScheduler("localhost"))
            //設(shè)置Pipeline,將結(jié)果以json方式保存到文件
            .addPipeline(new JsonFilePipeline("D:datawebmagic"))
            //開啟5個線程同時執(zhí)行
            .thread(5)
            //啟動爬蟲
            .run();
}
PageProcessor

核心的工作主要是自定義PageProcessor,比如

new PageProcessor() {

            @Override
            public void process(Page page) {
                List links = page.getHtml()
                        .xpath("http://table[@id="jrjthreadtable"]//td/a/@href")
                        .regex("/msg,d+.*.html")
                        .all();
                System.out.println(links);
            }

            @Override
            public Site getSite() {
                return Site.me()
                        .setRetryTimes(3)
                        .setSleepTime(1000)
                        .setTimeOut(10000);
            }

這里使用了xpath的語法來選取,不熟悉xpath的話,可以使用chrome:檢查-copy-copy xpath來學(xué)習(xí)。

doc

webmagic

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/70262.html

相關(guān)文章

  • webmagic爬取分頁列表數(shù)據(jù)

    摘要:是爬蟲框架中比較簡單易上手的一個。官網(wǎng)鏈接下面的例子是使用這個框架來爬取工商銀行的私人理財推薦分頁列表數(shù)據(jù)。頁面鏈接為引入配置如果項目已經(jīng)引入記錄日志,則需要在中排除。 webmagic是java爬蟲框架中比較簡單易上手的一個。官網(wǎng)鏈接:http://webmagic.io/ 下面的例子是使用這個框架來爬取工商銀行的私人理財推薦分頁列表數(shù)據(jù)。頁面鏈接為:https://mybank.i...

    Shisui 評論0 收藏0
  • 爬蟲框架WebMagic源碼分析系列目錄

    摘要:爬蟲框架源碼分析之爬蟲框架源碼分析之爬蟲框架源碼分析之爬蟲框架源碼分析之爬蟲框架源碼分析之之進階 爬蟲框架Webmagic源碼分析之Spider爬蟲框架WebMagic源碼分析之Scheduler爬蟲框架WebMagic源碼分析之Downloader爬蟲框架WebMagic源碼分析之Selector爬蟲框架WebMagic源碼分析之SeleniumWebMagic之Spider進階

    wayneli 評論0 收藏0
  • 爬蟲框架WebMagic源碼分析之Selenium

    摘要:有一個模塊其中實現(xiàn)了一個。但是感覺靈活性不大。接口如下它會獲得一個實例,你可以在里面進行任意的操作。本部分到此結(jié)束。 webmagic有一個selenium模塊,其中實現(xiàn)了一個SeleniumDownloader。但是感覺靈活性不大。所以我就自己參考實現(xiàn)了一個。 首先是WebDriverPool用來管理WebDriver池: import java.util.ArrayList; im...

    MarvinZhang 評論0 收藏0
  • 關(guān)于webmagic爬取Https網(wǎng)站報錯的解決辦法

    摘要:目前最新版是版本,在爬取只支持的站點會報錯目前作者說會在版本發(fā)布修復(fù)錯誤,目前的解決辦法是臨時適配方式,修改中的方法,重寫自己實現(xiàn)的,并設(shè)置到中。 目前webmagic最新版是0.7.3版本,在爬取只支持TLS1.2的https站點會報錯 javax.net.ssl.SSLException: Received fatal alert: protocol_version at ...

    CKJOKER 評論0 收藏0
  • Webmagic+Selenium+PhantomJS實戰(zhàn)

    摘要:還是直接貼代碼說明比較實在。重新調(diào)整窗口大小,以適應(yīng)頁面,需要耗費一定時間。建議等待合理的時間。負責(zé)摳圖指定坐標(biāo)不保持比例,調(diào)用進程,返回識別結(jié)果。 還是直接貼代碼說明比較實在。感覺webmagic-selenium這個模塊有點雞肋,但還是有可借鑒之處。借鑒它寫了一個SeleniumDownloader,如下: import org.openqa.selenium.By; import...

    zhangxiangliang 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<