摘要:所以要設(shè)計(jì)條隊(duì)列,保存商品信息。數(shù)據(jù)更新問題有新商品進(jìn)來,直接插入即可,如果是舊商品,那要不要更新數(shù)據(jù)庫里的內(nèi)容呢一般來說是可以更新的,但有種情況例外,就是你的數(shù)據(jù)庫會(huì)有人去編輯的情況。
場景:爬取某商城的部分商品。
隊(duì)列設(shè)計(jì)這里至少需要爬取2種資源,一種是商品列表,一種是商品信息。
所以要設(shè)計(jì)1條隊(duì)列,保存商品信息URL。
爬蟲1定期爬前N個(gè)列表頁 URL,把里面的商品信息URL爬下來,保存到隊(duì)列里。
爬蟲2定期從隊(duì)列中抽出商品信息URL,爬取商品信息,爬完后把該URL移出隊(duì)列。
所以呢,簡單來說,只要有2張表就行了,一張保存隊(duì)列信息,一張保存商品信息。
何時(shí)停止問題為了避免每次都把所有商品爬一遍,就要在適當(dāng)?shù)臅r(shí)候停止。
爬列表頁的時(shí)候,一般是設(shè)定只爬前 N 頁。
爬商品信息URL的時(shí)候,一般是先檢查這個(gè)商品是否存在,不存在就入隊(duì),存在的話,就表示接下來都是舊數(shù)據(jù)了,可以停止了。
當(dāng)然有種情況,就是有些舊的商品,會(huì)被人為地置頂,或者排到前面來。
這時(shí)候就要設(shè)置一個(gè)值 M,每次最多爬前 M 個(gè),多了不爬。
數(shù)據(jù)更新問題:有新商品進(jìn)來,直接插入即可,如果是舊商品,那要不要更新數(shù)據(jù)庫里的內(nèi)容呢?
一般來說是可以更新的,但有種情況例外,就是你的數(shù)據(jù)庫會(huì)有人去編輯的情況。
如果你的數(shù)據(jù)庫有專人編輯,那么最好不要更新舊商品,因?yàn)闀?huì)覆蓋掉編輯的內(nèi)容。并且,數(shù)據(jù)表要采用軟刪除的方式,避免前面的人剛刪除了數(shù)據(jù),你的爬蟲又把數(shù)據(jù)寫進(jìn)去了。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/43930.html
摘要:包括爬蟲編寫爬蟲避禁動(dòng)態(tài)網(wǎng)頁數(shù)據(jù)抓取部署分布式爬蟲系統(tǒng)監(jiān)測共六個(gè)內(nèi)容,結(jié)合實(shí)際定向抓取騰訊新聞數(shù)據(jù),通過測試檢驗(yàn)系統(tǒng)性能。 1 項(xiàng)目介紹 本項(xiàng)目的主要內(nèi)容是分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)。主要有以下幾個(gè)部分來介紹: (1)深入分析網(wǎng)絡(luò)新聞爬蟲的特點(diǎn),設(shè)計(jì)了分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)爬取策略、抓取字段、動(dòng)態(tài)網(wǎng)頁抓取方法、分布式結(jié)構(gòu)、系統(tǒng)監(jiān)測和數(shù)據(jù)存儲(chǔ)六個(gè)關(guān)鍵功能。 (2)結(jié)合程序代碼分解說...
摘要:在這之前,還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標(biāo)配系統(tǒng)。 爬蟲修煉之道——從網(wǎng)頁中提取結(jié)構(gòu)化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關(guān)注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個(gè)爬取多頁面的網(wǎng)絡(luò)爬蟲主要講解了如何使用python編寫一個(gè)可以下載多頁面的爬蟲,如何將相對URL轉(zhuǎn)為絕對URL,如何限速,...
摘要:我是一個(gè)知乎輕微重度用戶,之前寫了一只爬蟲幫我爬取并分析它的數(shù)據(jù),我感覺這個(gè)過程還是挺有意思,因?yàn)檫@是一個(gè)不斷給自己創(chuàng)造問題又去解決問題的過程。所以這只爬蟲還有登陸知乎搜索題目的功能。 我一直覺得,爬蟲是許多web開發(fā)人員難以回避的點(diǎn)。我們也應(yīng)該或多或少的去接觸這方面,因?yàn)榭梢詮呐老x中學(xué)習(xí)到web開發(fā)中應(yīng)當(dāng)掌握的一些基本知識(shí)。而且,它還很有趣。 我是一個(gè)知乎輕微重度用戶,之前寫了一只爬...
摘要:也就是說,我的篇文章的請求對應(yīng)個(gè)實(shí)例,這些實(shí)例都請求完畢后,執(zhí)行以下邏輯他的目的在于對每一個(gè)返回值這個(gè)返回值為單篇文章的內(nèi)容,進(jìn)行方法處理。 英國人Robert Pitt曾在Github上公布了他的爬蟲腳本,導(dǎo)致任何人都可以容易地取得Google Plus的大量公開用戶的ID信息。至今大概有2億2千5百萬用戶ID遭曝光。 亮點(diǎn)在于,這是個(gè)nodejs腳本,非常短,包括注釋只有71行。 ...
閱讀 3061·2021-11-22 15:29
閱讀 1746·2021-10-12 10:11
閱讀 1786·2021-09-04 16:45
閱讀 2265·2021-08-25 09:39
閱讀 2804·2021-08-18 10:20
閱讀 2532·2021-08-11 11:17
閱讀 458·2019-08-30 12:49
閱讀 3325·2019-08-30 12:49