Scrapy-Cluster結(jié)合Spiderkeeper管理分布式爬蟲

bingo 發(fā)布于2019-07-30 17:45 / 1330人閱讀

摘要：分布式爬蟲，分發(fā)網(wǎng)址是基于地址。注意要使用管理同一個(gè)集群，爬蟲項(xiàng)目名稱須一致，同時(shí)集群中配置相同任務(wù)瀏覽器訪問啟動(dòng)爬蟲時(shí)即可看見兩個(gè)集群配置，啟動(dòng)同名爬蟲開始分布式爬蟲啟動(dòng)分布式爬蟲后狀態(tài)

Scrapy-cluster 建設(shè)

基于Scrapy-cluster庫的kafka-monitor可以實(shí)現(xiàn)分布式爬蟲

Scrapyd+Spiderkeeper實(shí)現(xiàn)爬蟲的可視化管理

環(huán)境

IP	Role
168...118	Scrapy-cluster,scrapyd,spiderkeeper
168...119	Scrapy-cluster,scrapyd,kafka,redis,zookeeper

# cat /etc/redhat-release 
CentOS Linux release 7.4.1708 (Core) 
# python -V
Python 2.7.5
# java -version
openjdk version "1.8.0_181"
OpenJDK Runtime Environment (build 1.8.0_181-b13)
OpenJDK 64-Bit Server VM (build 25.181-b13, mixed mode)

Zookeeper 單機(jī)配置

下載并配置

# wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.13/zookeeper-3.4.13.tar.gz
# tar -zxvf zookeeper-3.4.13.tar.gz
# cd zookeeper-3.4.13/conf
# cp zoo_sample.cfg zoo.cfg
# cd ..
# PATH=/opt/zookeeper-3.4.13/bin:$PATH
# echo "export PATH=/opt/zookeeper-3.4.13/bin:$PATH" > /etc/profile.d/zoo.sh

單節(jié)點(diǎn)啟動(dòng)

# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /opt/zookeeper-3.4.13/bin/../conf/zoo.cfg
Error contacting service. It is probably not running.

# zkServer.sh start

kafka 單機(jī)配置

下載

# wget http://mirrors.hust.edu.cn/apache/kafka/2.0.0/kafka_2.12-2.0.0.tgz
# tar -zxvf kafka_2.12-2.0.0.tgz
# cd kafka_2.12-2.0.0/

配置

# vim config/server.properties

############################# Server Basics #############################

# The id of the broker. This must be set to a unique integer for each broker.
broker.id=0                     # kafka的機(jī)器編號(hào)，
host.name = 168.*.*.119         # 綁定ip
port=9092                        # 默認(rèn)端口9092，
# Switch to enable topic deletion or not, default value is false
delete.topic.enable=true
############################# Zookeeper #############################
zookeeper.connect=localhost:2181

啟動(dòng)

nohup bin/kafka-server-start.sh config/server.properties &

停止命令bin/kafka-server-stop.sh config/server.properties

redis 單機(jī)配置

安裝配置

# yum -y install redis
# vim /etc/redis.conf
bind 168.*.*.119

啟動(dòng)

# systemctl start redis.service

scrapy-cluster 單機(jī)配置

# git clone https://github.com/istresearch/scrapy-cluster.git
# cd scrapy-cluster
# pip install -r requirements.txt

離線運(yùn)行單元測試,以確保一切似乎正常

# ./run_offline_tests.sh

修改配置

# vim kafka-monitor/settings.py
# vim redis-monitor/settings.py
# vim crawlers/crawling/settings.py

修改以下

# Redis host configuration
REDIS_HOST = "168.*.*.119"
REDIS_PORT = 6379
REDIS_DB = 0

KAFKA_HOSTS = "168.*.*.119:9092"
KAFKA_TOPIC_PREFIX = "demo"
KAFKA_CONN_TIMEOUT = 5
KAFKA_APPID_TOPICS = False
KAFKA_PRODUCER_BATCH_LINGER_MS = 25  # 25 ms before flush
KAFKA_PRODUCER_BUFFER_BYTES = 4 * 1024 * 1024  # 4MB before blocking

# Zookeeper Settings
ZOOKEEPER_ASSIGN_PATH = "/scrapy-cluster/crawler/"
ZOOKEEPER_ID = "all"
ZOOKEEPER_HOSTS = "168.*.*.119:2181"

啟動(dòng)監(jiān)聽

# nohup python kafka_monitor.py run >> /root/scrapy-cluster/kafka-monitor/kafka_monitor.log 2>&1 &
# nohup python redis_monitor.py >> /root/scrapy-cluster/redis-monitor/redis_monitor.log 2>&1 &

scrapyd 爬蟲管理工具配置

安裝

# pip install scrapyd

配置

# sudo mkdir /etc/scrapyd
# sudo vi /etc/scrapyd/scrapyd.conf

[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   =
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 10
finished_to_keep = 100
poll_interval = 5.0
bind_address = 0.0.0.0
http_port   = 6800
debug       = off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher
webroot     = scrapyd.website.Root

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus

啟動(dòng)

# nohup scrapyd >> /root/scrapy-cluster/scrapyd.log 2>&1 &

建議做Nginx反向代理

啟動(dòng)異常

File "/usr/local/lib/python3.6/site-packages/scrapyd-1.2.0-py3.6.egg/scrapyd/app.py", line 2, in 
from twisted.application.internet import TimerService, TCPServer
File "/usr/local/lib64/python3.6/site-packages/twisted/application/internet.py", line 54, in 
from automat import MethodicalMachine
File "/usr/local/lib/python3.6/site-packages/automat/__init__.py", line 2, in 
from ._methodical import MethodicalMachine
File "/usr/local/lib/python3.6/site-packages/automat/_methodical.py", line 210, in 
    class MethodicalInput(object):
File "/usr/local/lib/python3.6/site-packages/automat/_methodical.py", line 220, in MethodicalInput
    @argSpec.default
builtins.TypeError: "_Nothing" object is not callable


Failed to load application: "_Nothing" object is not callable

解決：Automat降級(jí)

pip install Automat==0.6.0

Spiderkeeper 爬蟲管理界面配置

安裝

pip install SpiderKeeper

啟動(dòng)

mkdir /root/spiderkeeper/
nohup spiderkeeper --server=http://168.*.*.118:6800 --username=admin --password=admin --database-url=sqlite:////root/spiderkeeper/SpiderKeeper.db >> /root/scrapy-cluster/spiderkeeper.log 2>&1 &

瀏覽器訪問http://168.*.*.118:5000

使用Spiderkeeper 管理爬蟲 使用scrapyd-deploy部署爬蟲項(xiàng)目

修改scrapy.cfg配置

vim /root/scrapy-cluster/crawler/scrapy.cfg

[settings]
default = crawling.settings

[deploy]
url = http://168.*.*.118:6800/
project = crawling

添加新的spider

cd /root/scrapy-cluster/crawler/crawling/spider

使用scrapyd-deploy部署項(xiàng)目

# cd /root/scrapy-cluster/crawler
# scrapyd-deploy 
Packing version 1536225989
Deploying to project "crawling" in http://168.*.*.118:6800/addversion.json
Server response (200):
{"status": "ok", "project": "crawling", "version": "1536225989", "spiders": 3, "node_name": "ambari"}

spiderkeeper 配置爬蟲項(xiàng)目

登錄Spiderkeeper創(chuàng)建項(xiàng)目

使用scrapy.cfg中配置的項(xiàng)目名

創(chuàng)建后再Spiders->Dashboard中看到所有spider

Scrapy-cluster 分布式爬蟲

Scrapy Cluster需要在不同的爬蟲服務(wù)器之間進(jìn)行協(xié)調(diào)，以確保最大的內(nèi)容吞吐量，同時(shí)控制集群服務(wù)器爬取網(wǎng)站的速度。

Scrapy Cluster提供了兩種主要策略來控制爬蟲對(duì)不同域名的攻擊速度。這由爬蟲的類型與IP地址確定，但他們都作用于不同的域名隊(duì)列。

Scrapy-cluster分布式爬蟲，分發(fā)網(wǎng)址是基于IP地址。在不同的機(jī)器上啟動(dòng)集群，不同服務(wù)器上的每個(gè)爬蟲去除隊(duì)列中的所有鏈接。

部署集群中第二個(gè)scrapy-cluster

配置一臺(tái)新的服務(wù)器參照scrapy-cluster 單機(jī)配置,同時(shí)使用第一臺(tái)服務(wù)器配置kafka-monitor/settings.py redis-monitor/settings.py crawling/settings.py

Current public ip 問題

由于兩臺(tái)服務(wù)器同時(shí)部署在相同內(nèi)網(wǎng)，spider運(yùn)行后即獲取相同Current public ip，導(dǎo)致scrapy-cluster調(diào)度器無法根據(jù)IP分發(fā)鏈接

2018-09-07 16:08:29,684 [sc-crawler] DEBUG: Current public ip: b"110.*.*.1"

參考代碼/root/scrapy-cluster/crawler/crawling/distributed_scheduler.py第282行：

try:
    obj = urllib.request.urlopen(settings.get("PUBLIC_IP_URL",
                                  "http://ip.42.pl/raw"))
    results = self.ip_regex.findall(obj.read())
    if len(results) > 0:
        # results[0] 獲取IP地址即為110.90.122.1
        self.my_ip = results[0]
    else:
        raise IOError("Could not get valid IP Address")
    obj.close()
    self.logger.debug("Current public ip: {ip}".format(ip=self.my_ip))
except IOError:
    self.logger.error("Could not reach out to get public ip")
    pass

建議修改代碼，獲取本機(jī)IP

self.my_ip = [(s.connect(("8.8.8.8", 53)), s.getsockname()[0], s.close()) 
                for s in [socket.socket(socket.AF_INET, socket.SOCK_DGRAM)]][0][1]

運(yùn)行分布式爬蟲

在兩個(gè)scrapy-cluster中運(yùn)行相同Spider

execute(["scrapy", "runspider", "crawling/spiders/link_spider.py"])

使用python kafka_monitor.py feed投遞多個(gè)鏈接，使用DEBUG即可觀察到鏈接分配情況

使用SpiderKeeper管理分布式爬蟲 配置scrapyd管理集群第二個(gè)scrapy-cluster

在第二臺(tái)scrapy-cluster服務(wù)器上安裝配置scrapyd，參考scrapyd 爬蟲管理工具配置并修改配置

[settings]
default = crawling.settings

[deploy]
url = http://168.*.*.119:6800/
project = crawling

啟動(dòng)scrapyd后使用scrapyd-deploy工具部署兩個(gè)scrapy-cluster上的爬蟲項(xiàng)目。

使用Spiderkeeper連接多個(gè)scrapy-cluster

重新啟動(dòng)spiderkeeper，對(duì)接兩個(gè)scrapy-cluster的管理工具scrapyd。

nohup spiderkeeper --server=http://168.*.*.118:6800 --server=http://168.*.*.119:6800 --username=admin --password=admin --database-url=sqlite:////root/spiderkeeper/SpiderKeeper.db >> /root/scrapy-cluster/spiderkeeper.log 2>&1 &

注意：要使用spiderkeeper管理同一個(gè)集群，爬蟲項(xiàng)目名稱須一致，同時(shí)集群中scrapy-cluster配置相同spider任務(wù)

瀏覽器訪問http://168.*.*.118:5000 啟動(dòng)爬蟲時(shí)即可看見兩個(gè)scrapy-cluster集群配置，啟動(dòng)同名爬蟲開始scrapy-cluster分布式爬蟲

啟動(dòng)分布式爬蟲后狀態(tài)

GPU云服務(wù)器云服務(wù)器 spiderkeeper 和devstack無縫結(jié)合的云vps管理系統(tǒng) 和devstack無縫結(jié)合的云主機(jī)管理系統(tǒng) 分布式爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/42398.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

bingo

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

web前端培訓(xùn)之React.js與web前端是什么關(guān)系

閱讀 1561·2021-11-25 09:43
深入理解css中的margin屬性（最新瀏覽器支持）

閱讀 2347·2019-08-30 15:55
那是被我玩壞的線上簡歷

閱讀 1471·2019-08-30 13:08
CSS Float nine rules

閱讀 2682·2019-08-29 10:59
純CSS實(shí)現(xiàn)下拉菜單導(dǎo)航

閱讀 822·2019-08-29 10:54
9102年：手寫一個(gè)React腳手架【優(yōu)化極致版】

閱讀 1594·2019-08-26 18:26
【CuteJavaScript】GraphQL真香入門教程

閱讀 2555·2019-08-26 13:44
JavaScript 設(shè)計(jì)模式（六）：觀察者模式與發(fā)布訂閱模式

閱讀 2659·2019-08-23 18:36

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Scrapy-Cluster結(jié)合Spiderkeeper管理分布式爬蟲

相關(guān)文章

spiderkeeper 部署&操作

**基于Celery的分布式爬蟲管理平臺(tái): Crawlab**

scrapyd部署爬蟲項(xiàng)目到LINUX服務(wù)器

高級(jí)架構(gòu)師實(shí)戰(zhàn)：如何用最小的代價(jià)完成爬蟲需求

從0-1打造最強(qiáng)性能Scrapy爬蟲集群

發(fā)表評(píng)論

0條評(píng)論

bingo

男|高級(jí)講師

TA的文章

web前端培訓(xùn)之React.js與web前端是什么關(guān)系

深入理解css中的margin屬性（最新瀏覽器支持）

那是被我玩壞的線上簡歷

CSS Float nine rules

純CSS實(shí)現(xiàn)下拉菜單導(dǎo)航

9102年：手寫一個(gè)React腳手架【優(yōu)化極致版】

【CuteJavaScript】GraphQL真香入門教程

JavaScript 設(shè)計(jì)模式（六）：觀察者模式與發(fā)布訂閱模式

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

Scrapy-Cluster結(jié)合Spiderkeeper管理分布式爬蟲

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！