基于 ZooKeeper 實(shí)現(xiàn)爬蟲(chóng)集群的監(jiān)控

Backache 發(fā)布于2019-05-27 17:43 / 2432人閱讀

摘要：各個(gè)爬蟲(chóng)的節(jié)點(diǎn)通過(guò)注冊(cè)到從而實(shí)現(xiàn)爬蟲(chóng)集群的管理。是一款基于等框架實(shí)現(xiàn)的通用爬蟲(chóng)框架。爬蟲(chóng)集群的監(jiān)控包含了和。用于實(shí)現(xiàn)爬蟲(chóng)的業(yè)務(wù)邏輯，可以添加到，由來(lái)管理各個(gè)的生命周期。

ZooKeeper

ZooKeeper 是一個(gè)開(kāi)源的分布式協(xié)調(diào)服務(wù)，ZooKeeper框架最初是在“Yahoo!"上構(gòu)建的，用于以簡(jiǎn)單而穩(wěn)健的方式訪問(wèn)他們的應(yīng)用程序。 后來(lái)，Apache ZooKeeper成為Hadoop，HBase和其他分布式框架使用的有組織服務(wù)的標(biāo)準(zhǔn)。 例如，Apache HBase使用ZooKeeper跟蹤分布式數(shù)據(jù)的狀態(tài)。ZooKeeper 的設(shè)計(jì)目標(biāo)是將那些復(fù)雜且容易出錯(cuò)的分布式一致性服務(wù)封裝起來(lái)，構(gòu)成一個(gè)高效可靠的原語(yǔ)集，并以一系列簡(jiǎn)單易用的接口提供給用戶(hù)使用。

ZooKeeper 通常用于：命名服務(wù)、配置管理、集群管理、分布式協(xié)調(diào)/通知、分布式鎖和分布式隊(duì)列等等。

各個(gè)爬蟲(chóng)的節(jié)點(diǎn)通過(guò)注冊(cè)到 ZooKeeper 從而實(shí)現(xiàn)爬蟲(chóng)集群的管理。NetDiscovery 正是借助了 ZooKeeper 的特性來(lái)監(jiān)控爬蟲(chóng)集群。

NetDiscovery 是一款基于 Vert.x、RxJava 2 等框架實(shí)現(xiàn)的通用爬蟲(chóng)框架。它包含了豐富的特性。

爬蟲(chóng)集群的監(jiān)控

NetDiscovery 包含了 Spider 和 SpiderEngine。 Spider 用于實(shí)現(xiàn)爬蟲(chóng)的業(yè)務(wù)邏輯，Spider 可以添加到 SpiderEngine，由 SpiderEngine 來(lái)管理各個(gè) Spider 的生命周期。

但是 SpiderEngine 部署到每一個(gè)節(jié)點(diǎn)之后，SpiderEngine 如何進(jìn)行監(jiān)控和管理呢？

可以將 SpiderEngine 在運(yùn)行時(shí)，先注冊(cè)到 ZooKeeper。（需要事先在 ZooKeeper 集群創(chuàng)建 /netdiscovery 節(jié)點(diǎn)）

    /**
     * 啟動(dòng)SpiderEngine中所有的spider，讓每個(gè)爬蟲(chóng)并行運(yùn)行起來(lái)。
     *
     */
    public void run() {

        if (Preconditions.isNotBlank(spiders)) {

            registerZK();
            ......  
        }
    }

    /**
     * 將當(dāng)前 SpiderEngine 注冊(cè)到 zookeeper 指定的目錄 /netdiscovery 下
     */
    private void registerZK() {

        if (Preconditions.isNotBlank(zkStr) && useZk) {
            log.info("zkStr: {}", zkStr);

            RetryPolicy retryPolicy = new ExponentialBackoffRetry(1000,3);
            CuratorFramework client = CuratorFrameworkFactory.newClient(zkStr, retryPolicy);
            client.start();
            try {
                String ipAddr = InetAddress.getLocalHost().getHostAddress() + "-" + defaultHttpdPort + "-" + System.currentTimeMillis();
                String nowSpiderEngineZNode = "/netdiscovery/" + ipAddr;
                client.create().withMode(CreateMode.EPHEMERAL).forPath(nowSpiderEngineZNode,nowSpiderEngineZNode.getBytes());
            } catch (UnknownHostException e) {
                e.printStackTrace();
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }

另外，需要使用 NetDiscovery Monitor 的 CuratorManager 類(lèi)。它借助 Zookeeper 的 Watcher 機(jī)制，監(jiān)聽(tīng)已經(jīng)注冊(cè)到 /netdiscovery 這個(gè)父 zNode 下的各個(gè)子 zNode ，也就是各個(gè) SpiderEngine。

Watcher機(jī)制是指 ZooKeeper 客戶(hù)端向 ZooKeeper 服務(wù)器注冊(cè) Watcher 的同時(shí)，會(huì)將 Watcher 對(duì)象存儲(chǔ)在客戶(hù)端的 WatchManager 中。ZooKeeper 服務(wù)器觸發(fā) Watcher 事件后，會(huì)向客戶(hù)端發(fā)送通知，客戶(hù)端線程從 WatchManager 中回調(diào) Watcher 執(zhí)行相應(yīng)的功能。

    /**
     * 當(dāng)前所監(jiān)控的父的 zNode 下若是子 zNode 發(fā)生了變化：新增，刪除，修改
     * 
     * 下述方法都會(huì)觸發(fā)執(zhí)行
     *
     * @param event
     */
    @Override
    public void process(WatchedEvent event) {

        List newZodeInfos = null;
        try {
            newZodeInfos = client.getChildren().usingWatcher(this).forPath("/netdiscovery");
            //根據(jù)初始化容器的長(zhǎng)度與最新的容器的長(zhǎng)度進(jìn)行比對(duì)，就可以推導(dǎo)出當(dāng)前 SpiderEngine 集群的狀態(tài)：新增，宕機(jī)/下線，變更...
            //哪個(gè)容器中元素多，就循環(huán)遍歷哪個(gè)容器。
            if (Preconditions.isNotBlank(newZodeInfos)) {
                if (newZodeInfos.size()>allZnodes.size()){
                    //明確顯示新增了哪個(gè) SpiderEngine 節(jié)點(diǎn)
                    for (String nowZNode:newZodeInfos) {
                        if (!allZnodes.contains(nowZNode)){
                            log.info("新增 SpiderEngine 節(jié)點(diǎn){}", nowZNode);
                        }
                    }
                }else if (newZodeInfos.size()// 宕機(jī)/下線
                    // 明確顯示哪個(gè) SpiderEngine 節(jié)點(diǎn)宕機(jī)/下線了
                    for (String initZNode : allZnodes) {
                        if (!newZodeInfos.contains(initZNode)) {
                            log.info("SpiderEngine 節(jié)點(diǎn)【{}】下線了！", initZNode);

                            // 如果有下線的處理，則處理(例如發(fā)郵件、短信等)
                            if (serverOfflineProcess!=null) {
                                serverOfflineProcess.process();
                            }
                        }
                    }
                }else {
                    // SpiderEngine 集群正常運(yùn)行;
                    // 宕機(jī)/下線了，當(dāng)時(shí)馬上重啟了，總的爬蟲(chóng)未發(fā)生變化
                }
            }
        } catch (Exception e) {
            e.printStackTrace();
        }

        allZnodes = newZodeInfos;
    }

所以需要多帶帶運(yùn)行一個(gè)進(jìn)程，例如：

public class TestCuratorManager {

    public static void main(String[] args) {

        CuratorManager curatorManager = new CuratorManager();
        curatorManager.start();
    }
}

下圖反映了 ZooKeeper 如何監(jiān)控 SpiderEngine 集群。

總結(jié)

爬蟲(chóng)框架 github 地址：github.com/fengzhizi71…

本文介紹了如何使用 ZooKeeper 來(lái)監(jiān)控爬蟲(chóng)的集群。未來(lái)，NetDiscovery 還會(huì)增加更為通用的功能。

Java與Android技術(shù)棧：每周更新推送原創(chuàng)技術(shù)文章，歡迎掃描下方的公眾號(hào)二維碼并關(guān)注，期待與您的共同成長(zhǎng)和進(jìn)步。

GPU云服務(wù)器云服務(wù)器 zookeeper集群安裝 zookeeper集群配置 zookeeper集群搭建網(wǎng)絡(luò)爬蟲(chóng)的實(shí)現(xiàn)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/7884.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Backache

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

基于SSM的學(xué)生宿舍管理系統(tǒng)

閱讀 1468·2021-11-25 09:43
shockhosting日本東京VPS簡(jiǎn)單測(cè)評(píng)（1Gbps帶寬）

閱讀 2606·2021-09-24 10:30
詳細(xì)講解 —— 數(shù)組（C語(yǔ)言初階）

閱讀 3675·2021-09-06 15:02
大話css預(yù)編譯處理（一）通讀介紹篇

閱讀 3613·2019-08-30 15:55
翻譯 | 關(guān)鍵CSS和Webpack: 減少阻塞渲染的CSS的自動(dòng)化解決方案

閱讀 3312·2019-08-30 15:53
從sass到PostCSS

閱讀 1707·2019-08-30 15:52
編程伊始

閱讀 2153·2019-08-30 14:21
前端入門(mén)篇之div

閱讀 2022·2019-08-30 13:55

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

基于 ZooKeeper 實(shí)現(xiàn)爬蟲(chóng)集群的監(jiān)控

相關(guān)文章

Scrapy-Cluster結(jié)合Spiderkeeper管理分布式爬蟲(chóng)

DCOS應(yīng)用案例-不同場(chǎng)景的應(yīng)用上云遷移

ZooKeeper學(xué)習(xí)筆記之掃盲

人工智能幫助千萬(wàn)用戶(hù)完成「隱形征信」計(jì)算

發(fā)表評(píng)論

0條評(píng)論

Backache

男|高級(jí)講師

TA的文章

基于SSM的學(xué)生宿舍管理系統(tǒng)

shockhosting日本東京VPS簡(jiǎn)單測(cè)評(píng)（1Gbps帶寬）

詳細(xì)講解 —— 數(shù)組（C語(yǔ)言初階）

大話css預(yù)編譯處理（一）通讀介紹篇

翻譯 | 關(guān)鍵CSS和Webpack: 減少阻塞渲染的CSS的自動(dòng)化解決方案

從sass到PostCSS

編程伊始

前端入門(mén)篇之div

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

基于 ZooKeeper 實(shí)現(xiàn)爬蟲(chóng)集群的監(jiān)控

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！