Tomcat和搜索引擎網(wǎng)絡(luò)爬蟲的攻防

cheukyin 發(fā)布于2019-06-21 16:49 / 3166人閱讀

摘要：而搜索引擎如百度和微軟搜索，搜索等通過(guò)什么方式才能收錄我們的個(gè)人網(wǎng)站呢答案是搜索引擎的網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲是一個(gè)很形象的名詞，是屬于搜索引擎的工具，只有被這些網(wǎng)絡(luò)爬蟲爬過(guò)的內(nèi)容才有機(jī)會(huì)出現(xiàn)在對(duì)應(yīng)搜索引擎的搜索結(jié)果中。

不知道廣大程序員朋友們注意到一個(gè)現(xiàn)象么？使用百度是無(wú)法搜索到淘寶網(wǎng)的網(wǎng)頁(yè)。為什么會(huì)造成這種現(xiàn)象？這就要從網(wǎng)絡(luò)爬蟲說(shuō)起了。

咱們程序員假如自己搭設(shè)個(gè)人網(wǎng)站，在上面分享少量自己的技術(shù)文章，面臨的一個(gè)重要問(wèn)題就是讓搜索引擎能夠搜索到自己的個(gè)人網(wǎng)站，這樣才能讓更多的讀者訪問(wèn)到。

而搜索引擎如百度和微軟Bing搜索，Google搜索等通過(guò)什么方式才能收錄我們的個(gè)人網(wǎng)站呢？

答案是搜索引擎的網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲是一個(gè)很形象的名詞，是屬于搜索引擎的工具，只有被這些網(wǎng)絡(luò)爬蟲“爬過(guò)”的內(nèi)容才有機(jī)會(huì)出現(xiàn)在對(duì)應(yīng)搜索引擎的搜索結(jié)果中。

個(gè)人站長(zhǎng)對(duì)網(wǎng)絡(luò)爬蟲是又愛又恨。一方面，網(wǎng)絡(luò)爬蟲可以讓我們的個(gè)人網(wǎng)站出現(xiàn)在搜索結(jié)果里，對(duì)我們的個(gè)人網(wǎng)站進(jìn)行擴(kuò)散。另一方面，假如網(wǎng)絡(luò)爬蟲太多太頻繁地訪問(wèn)個(gè)人網(wǎng)站，會(huì)肯定程度上影響正常使用戶的請(qǐng)求解決。

于是就有了文章開頭我提到的百度搜不到淘寶產(chǎn)品信息的文章。

在瀏覽器里輸入https://www.taobao.com/robots...，

能看到淘寶網(wǎng)的一個(gè)文件robots.txt:

隨意選一段解釋：這個(gè)robots.txt的意思是，淘寶網(wǎng)做出了規(guī)定，假如網(wǎng)絡(luò)請(qǐng)求來(lái)自百度爬蟲(Baiduspider), 那么只允許(allow)百度爬蟲讀取article, oshtml和/ershou, 不允許讀取的是product。

User-agent: Baiduspider

Allow: /article

Allow: /oshtml

Allow: /ershou

Disallow: /product/

Disallow: /

那么淘寶網(wǎng)怎樣知道一個(gè)請(qǐng)求是來(lái)自百度爬蟲，還是來(lái)自真正的使用戶訪問(wèn)呢？答案就是HTTP請(qǐng)求的User-agent字段。

下圖是我使用Chrome訪問(wèn)淘寶網(wǎng)的HTTP請(qǐng)求的User-agent：

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36

再回到Tomcat。假如有大量來(lái)自網(wǎng)絡(luò)爬蟲的讀取請(qǐng)求，Web服務(wù)器需要為每一個(gè)請(qǐng)求創(chuàng)立一個(gè)session。當(dāng)Session數(shù)量變得巨大時(shí)，消耗的服務(wù)器內(nèi)存和資源也是巨大的。

因而，Tomcat對(duì)于來(lái)自網(wǎng)絡(luò)爬蟲的請(qǐng)求，用同一個(gè)session來(lái)解決。

我們打開Tomcat的源代碼來(lái)學(xué)習(xí)。

Tomcat的源代碼可以到其官網(wǎng)去下載：

https://tomcat.apache.org/dow...

點(diǎn)這個(gè)鏈接：

我下載的是7.0.90版本，只有7MB大。

這里需要注意，即便Spider顯式的傳了一個(gè) sessionId過(guò)來(lái)，也會(huì)棄使用，而是根據(jù)client Ip 來(lái)進(jìn)行判斷，即對(duì)于相同的 Spider 只提供一個(gè)Session。

在下載好的源代碼文件夾里，找到這個(gè)子文件夾：apache-tomcat-7.0.90-srcjavaorgapachecatalinavalves

打開CrawlerSessionManagerValve.java：

可以看到從第192行代碼開始都是Tomcat使用來(lái)檢測(cè)進(jìn)來(lái)的網(wǎng)絡(luò)請(qǐng)求能否是網(wǎng)絡(luò)爬蟲：

通過(guò)這個(gè)類里定義的正則表達(dá)式檢測(cè)HTTP請(qǐng)求的user-agent字段來(lái)判斷究竟該請(qǐng)求能否來(lái)自網(wǎng)絡(luò)爬蟲：

".[bB]ot.|.Yahoo! Slurp.|.Feedfetcher-Google."

一旦正則表達(dá)式在第205行匹配成功，將第206行的標(biāo)志位設(shè)成true。

假如檢測(cè)到是網(wǎng)絡(luò)爬蟲，則使用clientIdSessionId.get這個(gè)API獲取Tomcat專門為網(wǎng)絡(luò)爬蟲預(yù)留的sessionId, 而后在第226行把該sessionId分配到進(jìn)來(lái)的網(wǎng)絡(luò)爬蟲請(qǐng)求，這樣就避免了白費(fèi)太多的資源申請(qǐng)session來(lái)服務(wù)海量的網(wǎng)絡(luò)爬蟲請(qǐng)求，節(jié)省了Web服務(wù)器的資源。

要獲取更多Jerry的原創(chuàng)技術(shù)文章，請(qǐng)關(guān)注公眾號(hào)"汪子熙"或者掃描下面二維碼:

GPU云服務(wù)器云服務(wù)器阿里云服務(wù)器和tomcat的區(qū)別爬蟲搜索引擎搜索引擎爬蟲 asp搜索引擎爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/11414.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

cheukyin

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

python3.7

閱讀 858·2023-04-25 21:21
第六章-多態(tài)#yyds干貨盤點(diǎn)#

閱讀 3239·2021-11-24 09:39
IDEA 必要配置

閱讀 3084·2021-09-02 15:41
ion cloud：圣何塞數(shù)據(jù)中心“PREMIUM”網(wǎng)絡(luò)，云服務(wù)器簡(jiǎn)單測(cè)評(píng)

閱讀 2011·2021-08-26 14:13
(面試題)垂直居中的幾種實(shí)現(xiàn)方式

閱讀 1841·2019-08-30 11:18
用css動(dòng)態(tài)實(shí)現(xiàn)圓環(huán)百分比分配——初探css3動(dòng)畫

閱讀 2798·2019-08-29 16:25
webpack把你的項(xiàng)目編譯成了什么

閱讀 519·2019-08-28 18:27
「CSS」Margin Collapsing - 外邊距合并

閱讀 1592·2019-08-28 18:17

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Tomcat和搜索引擎網(wǎng)絡(luò)爬蟲的攻防

相關(guān)文章

極簡(jiǎn)爬蟲攻防戰(zhàn)紀(jì)要

爬蟲攻防實(shí)踐

爬蟲攻防實(shí)踐

如果有人問(wèn)你爬蟲抓取技術(shù)的門道，請(qǐng)叫他來(lái)看這篇文章

發(fā)表評(píng)論

0條評(píng)論

cheukyin

男|高級(jí)講師

TA的文章

python3.7

第六章-多態(tài)#yyds干貨盤點(diǎn)#

IDEA 必要配置

ion cloud：圣何塞數(shù)據(jù)中心“PREMIUM”網(wǎng)絡(luò)，云服務(wù)器簡(jiǎn)單測(cè)評(píng)

(面試題)垂直居中的幾種實(shí)現(xiàn)方式

用css動(dòng)態(tài)實(shí)現(xiàn)圓環(huán)百分比分配——初探css3動(dòng)畫

webpack把你的項(xiàng)目編譯成了什么

「CSS」Margin Collapsing - 外邊距合并

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Tomcat和搜索引擎網(wǎng)絡(luò)爬蟲的攻防

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！