python基礎(chǔ)爬蟲的框架以及詳細(xì)的運(yùn)行流程

Scliang 發(fā)布于2019-07-31 09:58 / 1266人閱讀

摘要：互聯(lián)網(wǎng)界對(duì)于網(wǎng)絡(luò)爬蟲也建立了一定的道德規(guī)范協(xié)議來(lái)約束。基礎(chǔ)爬蟲的框架以及詳細(xì)的運(yùn)行流程基礎(chǔ)爬蟲框架主要包括五大模塊，分別是爬蟲調(diào)度器管理器下載器解析器數(shù)據(jù)存儲(chǔ)器。

網(wǎng)絡(luò)爬蟲是什么？

網(wǎng)絡(luò)爬蟲就是：請(qǐng)求網(wǎng)站并提取數(shù)據(jù)的自動(dòng)化程序

網(wǎng)絡(luò)爬蟲能做什么？

網(wǎng)絡(luò)爬蟲被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站，可以自動(dòng)采集所有其能夠訪問到的頁(yè)面內(nèi)容，以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式。

網(wǎng)絡(luò)爬蟲還被用于爬取各個(gè)網(wǎng)站的數(shù)據(jù)，進(jìn)行分析、預(yù)測(cè)
近幾年來(lái)，大量的企業(yè)和個(gè)人開始使用網(wǎng)絡(luò)爬蟲采集互聯(lián)網(wǎng)的公開數(shù)據(jù)，進(jìn)行數(shù)據(jù)分析，進(jìn)一步達(dá)到商業(yè)目的。

利用網(wǎng)絡(luò)爬蟲能從網(wǎng)上爬取什么數(shù)據(jù)？

可以好不吹噓的說(shuō)，平時(shí)從瀏覽器瀏覽的所有數(shù)據(jù)都能被爬取下來(lái)。

網(wǎng)絡(luò)爬蟲是否合法？

上面說(shuō)到了爬蟲可以爬取任何數(shù)據(jù)，那么，爬取數(shù)據(jù)這種行為是否合法？
目前關(guān)于爬取數(shù)據(jù)的法律還在建立和完善中，如果爬取的數(shù)據(jù)屬于個(gè)人使用或者科研范疇，基本不存在什么問題；一旦要用于商業(yè)用途就得注意了，有可能會(huì)違法?；ヂ?lián)網(wǎng)界對(duì)于網(wǎng)絡(luò)爬蟲也建立了一定的道德規(guī)范（Robots協(xié)議）來(lái)約束。
這里具體看下Robots協(xié)議
Robots協(xié)議規(guī)定各個(gè)搜索引擎哪些頁(yè)面可以抓取，哪些頁(yè)面不能抓取，Robots協(xié)議雖然沒有被寫入法律，但是每一個(gè)爬蟲都應(yīng)該遵守這項(xiàng)協(xié)議。
下面是淘寶網(wǎng)的robots協(xié)議：

從圖中我們就可以發(fā)現(xiàn)淘寶網(wǎng)對(duì)百度的爬蟲引擎做出了規(guī)定，然而百度也會(huì)遵守這些規(guī)定，不信你可以試試從百度是找不到淘寶里的商品信息的。

python爬蟲的基本流程

Python爬蟲的基本流程非常簡(jiǎn)單，主要可以分為三部分：（1）獲取網(wǎng)頁(yè)；（2）解析網(wǎng)頁(yè)（提取數(shù)據(jù)）；（3）存儲(chǔ)數(shù)據(jù)。

簡(jiǎn)單的介紹下這三部分：

獲取網(wǎng)頁(yè)就是給一個(gè)網(wǎng)址發(fā)送請(qǐng)求，該網(wǎng)址會(huì)返回整個(gè)網(wǎng)頁(yè)的數(shù)據(jù)。類似于在瀏覽器中輸入網(wǎng)址并按回車鍵，然后可以看到網(wǎng)站的整個(gè)頁(yè)面。

解析網(wǎng)頁(yè)就是從整個(gè)網(wǎng)頁(yè)的數(shù)據(jù)中提取想要的數(shù)據(jù)。

存儲(chǔ)數(shù)據(jù)顧名思義就是把數(shù)據(jù)存儲(chǔ)下來(lái)，我們可以存儲(chǔ)在文本中，也可以存儲(chǔ)到數(shù)據(jù)庫(kù)中。

基礎(chǔ)爬蟲的框架以及詳細(xì)的運(yùn)行流程

基礎(chǔ)爬蟲框架主要包括五大模塊，分別是爬蟲調(diào)度器、URL管理器、HTML下載器、HTML解析器、數(shù)據(jù)存儲(chǔ)器。這五大模塊之間的關(guān)系如下圖所示：

下來(lái)我們來(lái)分析這五大模塊之間的功能：

爬蟲調(diào)度器主要負(fù)責(zé)統(tǒng)籌其他四個(gè)模塊的協(xié)調(diào)工作。

URL管理器負(fù)責(zé)管理URL鏈接，維護(hù)已經(jīng)爬取的URL集合和未爬取的URL集合，提供獲取新URL鏈接的接口。

HTML下載器用于從URL管理器中獲取未爬取的URL鏈接并下載HTML網(wǎng)頁(yè)。

HTML解析器用于從HTML下載器中獲取已經(jīng)下載的HTML網(wǎng)頁(yè)，并從中解析出新的URL鏈接交給URL管理器，解析出有效數(shù)據(jù)交給數(shù)據(jù)存儲(chǔ)器。

數(shù)據(jù)存儲(chǔ)器用于將HTML解析器解析出來(lái)的數(shù)據(jù)通過文件或者數(shù)據(jù)庫(kù)的形式存儲(chǔ)起來(lái)。

詳細(xì)的運(yùn)行流程如下圖所示：

GPU云服務(wù)器云服務(wù)器 python爬蟲流程 python爬蟲框架流程的python python爬蟲框架scrapy

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/43034.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Scliang

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

css-in-js 探討

閱讀 1638·2019-08-30 15:54
實(shí)現(xiàn)環(huán)形進(jìn)度條的幾種方法

閱讀 2384·2019-08-30 15:52
flex布局滾動(dòng)問題，子元素?zé)o法全部顯示的解決辦法

閱讀 2076·2019-08-29 15:33
margin:負(fù)值也挺有用

閱讀 3050·2019-08-28 17:56
為什么我選擇用 Github issues 來(lái)寫博客

閱讀 3247·2019-08-26 13:54
JS面向?qū)ο笠?MVC的面向?qū)ο蠓庋b

閱讀 1683·2019-08-26 12:16
一篇文章理解前端緩存

閱讀 2456·2019-08-26 11:51
React Hooks 越來(lái)越火了，它會(huì)取代傳統(tǒng)的 Redux 嗎？

閱讀 1656·2019-08-26 10:26

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python基礎(chǔ)爬蟲的框架以及詳細(xì)的運(yùn)行流程

相關(guān)文章

**如何實(shí)現(xiàn)一個(gè)Python爬蟲框架**

**史上最詳細(xì)Python學(xué)習(xí)路線-從入門到精通，只需90天**

**MongoDB 4.0 Python3.7 穩(wěn)定高效的評(píng)分制IP代理池APIserver**

**MongoDB 4.0 Python3.7 穩(wěn)定高效的評(píng)分制IP代理池APIserver**

發(fā)表評(píng)論

0條評(píng)論

Scliang

男|高級(jí)講師

TA的文章

css-in-js 探討

實(shí)現(xiàn)環(huán)形進(jìn)度條的幾種方法

flex布局滾動(dòng)問題，子元素?zé)o法全部顯示的解決辦法

margin:負(fù)值也挺有用

為什么我選擇用 Github issues 來(lái)寫博客

JS面向?qū)ο笠?MVC的面向?qū)ο蠓庋b

一篇文章理解前端緩存

React Hooks 越來(lái)越火了，它會(huì)取代傳統(tǒng)的 Redux 嗎？

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

python基礎(chǔ)爬蟲的框架以及詳細(xì)的運(yùn)行流程

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！