摘要:在上篇文章實(shí)現(xiàn)簡(jiǎn)單爬蟲框架單任務(wù)版爬蟲中我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的單任務(wù)版爬蟲,對(duì)于單任務(wù)版爬蟲,每次都要請(qǐng)求頁(yè)面,然后解析數(shù)據(jù),然后才能請(qǐng)求下一個(gè)頁(yè)面。
在上篇文章Golang實(shí)現(xiàn)簡(jiǎn)單爬蟲框架(2)——單任務(wù)版爬蟲中我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的單任務(wù)版爬蟲,對(duì)于單任務(wù)版爬蟲,每次都要請(qǐng)求頁(yè)面,然后解析數(shù)據(jù),然后才能請(qǐng)求下一個(gè)頁(yè)面。整個(gè)過程中,獲取網(wǎng)頁(yè)數(shù)據(jù)速度比較慢,那么我們就把獲取數(shù)據(jù)模塊做成并發(fā)執(zhí)行。在項(xiàng)目的基礎(chǔ)上,實(shí)現(xiàn)多任務(wù)并發(fā)版爬蟲。
項(xiàng)目github地址:github.com/NovemberCho… 回滾到相應(yīng)記錄食用,效果更佳。
1、項(xiàng)目架構(gòu)首先我們把但任務(wù)版爬蟲架構(gòu)中的Fetcher模塊和Parser模塊合并成一個(gè)Worker模塊,然后并發(fā)執(zhí)行Worker模塊
然后得到并發(fā)版的架構(gòu)圖:
在并發(fā)版爬蟲中,會(huì)同時(shí)執(zhí)行多個(gè)Worker,每個(gè)Worker任務(wù)接受一個(gè)Request請(qǐng)求,然后請(qǐng)求頁(yè)面解析數(shù)據(jù),輸出解析出的Requests和Item
因?yàn)橛趾芏?b>Request和Worker,所以還需要Scheduler模塊,負(fù)責(zé)對(duì)請(qǐng)求任務(wù)的調(diào)度處理
Engine模塊接受Worker發(fā)送的Requests和Items,當(dāng)前我們先把Items打印出,把解析出的Request發(fā)送給調(diào)度器
其中Engine和Scheduler是一個(gè)goroutine,Worker包含多個(gè)goroutine,各個(gè)模塊之間都是用channel進(jìn)行連接
先放上重構(gòu)后的項(xiàng)目文件結(jié)構(gòu):
2、Worker實(shí)現(xiàn)
我們從engine.go中提取下面功能作為Worker模塊,同時(shí)把engine.go 更名為simple.go。修改后的simple.go文件請(qǐng)自行調(diào)整,或者去github項(xiàng)目源代碼回滾查看。
engine/worker.go
package engine
import (
"crawler/fetcher"
"log"
)
// 輸入 Request, 返回 ParseResult
func worker(request Request) (ParseResult, error) {
log.Printf("Fetching %s
", request.Url)
content, err := fetcher.Fetch(request.Url)
if err != nil {
log.Printf("Fetch error, Url: %s %v
", request.Url, err)
return ParseResult{}, err
}
return request.ParseFunc(content), nil
}
對(duì)于每一個(gè)Worker接受一個(gè)請(qǐng)求,然后返回解析出的內(nèi)容
3、并發(fā)引擎Concurrent實(shí)現(xiàn)請(qǐng)大家根據(jù)架構(gòu)圖來看,效果會(huì)更好。
package engine
import "log"
// 并發(fā)引擎
type ConcurrendEngine struct {
Scheduler Scheduler // 任務(wù)調(diào)度器
WorkerCount int // 任務(wù)并發(fā)數(shù)量
}
// 任務(wù)調(diào)度器
type Scheduler interface {
Submit(request Request) // 提交任務(wù)
ConfigMasterWorkerChan(chan Request) // 配置初始請(qǐng)求任務(wù)
}
func (e *ConcurrendEngine) Run(seeds ...Request) {
in := make(chan Request) // scheduler的輸入
out := make(chan ParseResult) // worker的輸出
e.Scheduler.ConfigMasterWorkerChan(in) // 把初始請(qǐng)求提交給scheduler
// 創(chuàng)建 goruntine
for i := 0; i < e.WorkerCount; i++ {
createWorker(in, out)
}
// engine把請(qǐng)求任務(wù)提交給 Scheduler
for _, request := range seeds {
e.Scheduler.Submit(request)
}
itemCount := 0
for {
// 接受 Worker 的解析結(jié)果
result := <-out
for _, item := range result.Items {
log.Printf("Got item: #%d: %v
", itemCount, item)
itemCount++
}
// 然后把 Worker 解析出的 Request 送給 Scheduler
for _, request := range result.Requests {
e.Scheduler.Submit(request)
}
}
}
// 創(chuàng)建任務(wù),調(diào)用worker,分發(fā)goroutine
func createWorker(in chan Request, out chan ParseResult) {
go func() {
for {
request := <-in
result, err := worker(request)
if err != nil {
continue
}
out <- result
}
}()
}
4、任務(wù)調(diào)度器Scheduler實(shí)現(xiàn)
scheduler/scheduler.go
package scheduler
import "crawler/engine"
type SimpleScheduler struct {
workerChan chan engine.Request
}
func (s *SimpleScheduler) Submit(request engine.Request) {
// 為每一個(gè) Request 創(chuàng)建 goroutine
go func() {
s.workerChan <- request
}()
}
// 把初始請(qǐng)求發(fā)送給 Scheduler
func (s *SimpleScheduler) ConfigMasterWorkerChan(in chan engine.Request) {
s.workerChan = in
}
5、main函數(shù)
package main
import (
"crawler/engine"
"crawler/scheduler"
"crawler/zhenai/parser"
)
func main() {
e := engine.ConcurrendEngine{ // 配置爬蟲引擎
Scheduler: &scheduler.SimpleScheduler{},
WorkerCount: 50,
}
e.Run(engine.Request{ // 配置爬蟲目標(biāo)信息
Url: "http://www.zhenai.com/zhenghun",
ParseFunc: parser.ParseCityList,
})
}
6、小結(jié)
本次博客我們實(shí)現(xiàn)一個(gè)最簡(jiǎn)單的并發(fā)版爬蟲,調(diào)度器源源不斷的接受任務(wù),一旦有一個(gè)worker空閑,就給其分配任務(wù)。這樣子有一個(gè)缺點(diǎn),就是我們不知道我們分發(fā)出那么多worker的工作情況,對(duì)worker的控制力比較弱,所以在下次博客中會(huì)用隊(duì)列來實(shí)現(xiàn)任務(wù)調(diào)度。
如果想獲取Google工程師深度講解go語(yǔ)言視頻資源的,可以在評(píng)論區(qū)留下郵箱。
項(xiàng)目的源代碼已經(jīng)托管到Github上,對(duì)于各個(gè)版本都有記錄,歡迎大家查看,記得給個(gè)star,在此先謝謝大家了
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/6918.html
摘要:在上篇文章實(shí)現(xiàn)簡(jiǎn)單爬蟲框架單任務(wù)版爬蟲中我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的單任務(wù)版爬蟲,對(duì)于單任務(wù)版爬蟲,每次都要請(qǐng)求頁(yè)面,然后解析數(shù)據(jù),然后才能請(qǐng)求下一個(gè)頁(yè)面。在上篇文章Golang實(shí)現(xiàn)簡(jiǎn)單爬蟲框架(2)——單任務(wù)版爬蟲中我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的單任務(wù)版爬蟲,對(duì)于單任務(wù)版爬蟲,每次都要請(qǐng)求頁(yè)面,然后解析數(shù)據(jù),然后才能請(qǐng)求下一個(gè)頁(yè)面。整個(gè)過程中,獲取網(wǎng)頁(yè)數(shù)據(jù)速度比較慢,那么我們就把獲取數(shù)據(jù)模塊做成并發(fā)執(zhí)行。在...
摘要:并發(fā)的方式有多種,多線程,多進(jìn)程,異步等。多線程和多進(jìn)程之間的場(chǎng)景切換和通訊代價(jià)很高,不適合密集型的場(chǎng)景關(guān)于多線程和多進(jìn)程的特點(diǎn)已經(jīng)超出本文討論的范疇,有興趣的同學(xué)可以自行搜索深入理解。 編程中,我們經(jīng)常會(huì)遇到并發(fā)這個(gè)概念,目的是讓軟件能充分利用硬件資源,提高性能。并發(fā)的方式有多種,多線程,多進(jìn)程,異步IO等。多線程和多進(jìn)程更多應(yīng)用于CPU密集型的場(chǎng)景,比如科學(xué)計(jì)算的時(shí)間都耗費(fèi)在CPU...
摘要:平日學(xué)習(xí)接觸過的網(wǎng)站積累,以每月的形式發(fā)布。年以前看這個(gè)網(wǎng)址概況在線地址前端開發(fā)群月報(bào)提交原則技術(shù)文章新的為主。 平日學(xué)習(xí)接觸過的網(wǎng)站積累,以每月的形式發(fā)布。2017年以前看這個(gè)網(wǎng)址:http://www.kancloud.cn/jsfron... 概況 在線地址:http://www.kancloud.cn/jsfront/month/82796 JS前端開發(fā)群月報(bào) 提交原則: 技...
閱讀 2065·2023-04-26 02:41
閱讀 2125·2021-09-24 09:47
閱讀 1520·2019-08-30 15:53
閱讀 1185·2019-08-30 13:01
閱讀 1871·2019-08-29 11:27
閱讀 2839·2019-08-28 17:55
閱讀 1724·2019-08-26 14:00
閱讀 3334·2019-08-26 10:18