爬蟲數(shù)據(jù)庫一些簡單的設(shè)計(jì)邏輯

edagarli 發(fā)布于2019-07-31 10:30 / 523人閱讀

摘要：所以要設(shè)計(jì)條隊(duì)列，保存商品信息。數(shù)據(jù)更新問題有新商品進(jìn)來，直接插入即可，如果是舊商品，那要不要更新數(shù)據(jù)庫里的內(nèi)容呢一般來說是可以更新的，但有種情況例外，就是你的數(shù)據(jù)庫會(huì)有人去編輯的情況。

場景：爬取某商城的部分商品。

隊(duì)列設(shè)計(jì)

這里至少需要爬取2種資源，一種是商品列表，一種是商品信息。
所以要設(shè)計(jì)1條隊(duì)列，保存商品信息URL。

爬蟲1定期爬前N個(gè)列表頁 URL，把里面的商品信息URL爬下來，保存到隊(duì)列里。

爬蟲2定期從隊(duì)列中抽出商品信息URL，爬取商品信息，爬完后把該URL移出隊(duì)列。

所以呢，簡單來說，只要有2張表就行了，一張保存隊(duì)列信息，一張保存商品信息。

何時(shí)停止問題

為了避免每次都把所有商品爬一遍，就要在適當(dāng)?shù)臅r(shí)候停止。
爬列表頁的時(shí)候，一般是設(shè)定只爬前 N 頁。
爬商品信息URL的時(shí)候，一般是先檢查這個(gè)商品是否存在，不存在就入隊(duì)，存在的話，就表示接下來都是舊數(shù)據(jù)了，可以停止了。

當(dāng)然有種情況，就是有些舊的商品，會(huì)被人為地置頂，或者排到前面來。

這時(shí)候就要設(shè)置一個(gè)值 M，每次最多爬前 M 個(gè)，多了不爬。

數(shù)據(jù)更新問題：

有新商品進(jìn)來，直接插入即可，如果是舊商品，那要不要更新數(shù)據(jù)庫里的內(nèi)容呢？
一般來說是可以更新的，但有種情況例外，就是你的數(shù)據(jù)庫會(huì)有人去編輯的情況。

如果你的數(shù)據(jù)庫有專人編輯，那么最好不要更新舊商品，因?yàn)闀?huì)覆蓋掉編輯的內(nèi)容。并且，數(shù)據(jù)表要采用軟刪除的方式，避免前面的人剛刪除了數(shù)據(jù)，你的爬蟲又把數(shù)據(jù)寫進(jìn)去了。

云服務(wù)器 GPU云服務(wù)器簡單的爬蟲簡單的爬蟲程序最簡單的爬蟲 python簡單的爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/43930.html

發(fā)表評論

登陸后可評論

0條評論

edagarli

男|高級講師

我要關(guān)注我要私信

TA的文章

#yyds干貨盤點(diǎn)# 前端基礎(chǔ)知識(shí)面試集錦2

閱讀 3061·2021-11-22 15:29
電子設(shè)備及半導(dǎo)體測量之“納米結(jié)構(gòu)的低級測量”技術(shù)說明

閱讀 1746·2021-10-12 10:11
指南者stm32單片機(jī)keil5新建工程和組織目錄的那些事

閱讀 1786·2021-09-04 16:45
Namesilo：域名購買及使用教程（附 Namesilo 優(yōu)惠碼）

閱讀 2265·2021-08-25 09:39
ION：2周年促銷，VPS年付8折優(yōu)惠，可選洛杉磯/圣何塞cn2 gia/新加坡cn2

閱讀 2804·2021-08-18 10:20
edgenat：全新“韓國原生IP”VPS，全場8折促銷，韓國CN2/中國香港CN2/洛杉磯CN2

閱讀 2532·2021-08-11 11:17
SASS入門

閱讀 458·2019-08-30 12:49
前端碎語（6）

閱讀 3325·2019-08-30 12:49

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

爬蟲數(shù)據(jù)庫一些簡單的設(shè)計(jì)邏輯

相關(guān)文章

從0-1打造最強(qiáng)性能Scrapy爬蟲集群

爬蟲 - 收藏集 - 掘金

一只node爬蟲的升級打怪之路

nodeJS實(shí)現(xiàn)基于Promise爬蟲定時(shí)發(fā)送信息到指定郵件

發(fā)表評論

0條評論

edagarli

男|高級講師

TA的文章

#yyds干貨盤點(diǎn)# 前端基礎(chǔ)知識(shí)面試集錦2

電子設(shè)備及半導(dǎo)體測量之“納米結(jié)構(gòu)的低級測量”技術(shù)說明

指南者stm32單片機(jī)keil5新建工程和組織目錄的那些事

Namesilo：域名購買及使用教程（附 Namesilo 優(yōu)惠碼）

ION：2周年促銷，VPS年付8折優(yōu)惠，可選洛杉磯/圣何塞cn2 gia/新加坡cn2

edgenat：全新“韓國原生IP”VPS，全場8折促銷，韓國CN2/中國香港CN2/洛杉磯CN2

SASS入門

前端碎語（6）

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

爬蟲數(shù)據(jù)庫一些簡單的設(shè)計(jì)邏輯

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！