5、web爬蟲，scrapy模塊,解決重復(fù)ur——自動遞歸url

macg0406 發(fā)布于2019-07-31 10:33 / 3173人閱讀

摘要：百度云搜索搜網(wǎng)盤一般抓取過的不重復(fù)抓取，那么就需要記錄，判斷當(dāng)前如果在記錄里說明已經(jīng)抓取過了，如果不存在說明沒抓取過記錄可以是緩存，或者數(shù)據(jù)庫，如果保存數(shù)據(jù)庫按照以下方式加密建索引以便查詢原始保存表里應(yīng)該至少有以上個(gè)字段加密建索引以便查詢字

【百度云搜索:http://bdy.lqkweb.com】

【搜網(wǎng)盤:http://www.swpan.cn】

一般抓取過的url不重復(fù)抓取，那么就需要記錄url，判斷當(dāng)前URL如果在記錄里說明已經(jīng)抓取過了，如果不存在說明沒抓取過

記錄url可以是緩存，或者數(shù)據(jù)庫，如果保存數(shù)據(jù)庫按照以下方式：

id　　 URL加密(建索引以便查詢) 　　原始URL

保存URL表里應(yīng)該至少有以上3個(gè)字段
1、URL加密(建索引以便查詢)字段：用來查詢這樣速度快，
2、原始URL，用來給加密url做對比，防止加密不同的URL出現(xiàn)同樣的加密值

自動遞歸url

#?-*-?coding:?utf-8?-*-
import?scrapy???????#導(dǎo)入爬蟲模塊
from?scrapy.selector?import?HtmlXPathSelector??#導(dǎo)入HtmlXPathSelector模塊
from?scrapy.selector?import?Selector

class?AdcSpider(scrapy.Spider):
????name?=?"adc"????????????????????????????????????????#設(shè)置爬蟲名稱
????allowed_domains?=?["hao.#"]
????start_urls?=?["https://hao.#/"]

????def?parse(self,?response):

????????#這里做頁面的各種獲取以及處理

????????#遞歸查找url循環(huán)執(zhí)行
????????hq_url?=?Selector(response=response).xpath("http://a/@href")???#查找到當(dāng)前頁面的所有a標(biāo)簽的href，也就是url
????????for?url?in?hq_url:????????????????????????????????????????#循環(huán)url
????????????yield?scrapy.Request(url=url,?callback=self.parse)????#每次循環(huán)將url傳入Request方法進(jìn)行繼續(xù)抓取，callback執(zhí)行parse回調(diào)函數(shù)，遞歸循環(huán)

????????#這樣就會遞歸抓取url并且自動執(zhí)行了，但是需要在settings.py?配置文件中設(shè)置遞歸深度，DEPTH_LIMIT=3表示遞歸3層

這樣就會遞歸抓取url并且自動執(zhí)行了，但是需要在settings.py?配置文件中設(shè)置遞歸深度，DEPTH_LIMIT=3表示遞歸3層

云服務(wù)器 GPU云服務(wù)器 scrapy 爬蟲爬蟲scrapy scrapy爬蟲 scrapy登錄爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/44025.html

發(fā)表評論

登陸后可評論

0條評論

macg0406

男|高級講師

我要關(guān)注我要私信

TA的文章

服務(wù)器硬件及RAID配置實(shí)戰(zhàn)

閱讀 1414·2021-11-25 09:43
【程序員必會十大算法】之貪心算法

閱讀 2272·2021-09-27 13:36
蘋果高管正拜訪亞洲供應(yīng)商探討蘋果汽車生產(chǎn)事宜

閱讀 1124·2021-09-04 16:40
微信小程序vedio視頻全屏無法遮擋textarea

閱讀 1964·2019-08-30 11:12
微信小程序?qū)徍瞬煌ㄟ^的解決方法

閱讀 3320·2019-08-29 14:14
CSS/兩欄并列等高布局

閱讀 575·2019-08-28 17:56
react.js避免在input/textareah中輸入(setState)時(shí)重新渲染整個(gè)頁面

閱讀 1335·2019-08-26 13:50
前端修煉之路

閱讀 1258·2019-08-26 13:29

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

5、web爬蟲，scrapy模塊,解決重復(fù)ur——自動遞歸url

【百度云搜索:http://bdy.lqkweb.com】

【搜網(wǎng)盤:http://www.swpan.cn】

相關(guān)文章

scrapy-redis分布式爬蟲框架詳解

Python-爬蟲工程師-面試總結(jié)

爬蟲入門

發(fā)表評論

0條評論

macg0406

男|高級講師

TA的文章

服務(wù)器硬件及RAID配置實(shí)戰(zhàn)

【程序員必會十大算法】之貪心算法

蘋果高管正拜訪亞洲供應(yīng)商探討蘋果汽車生產(chǎn)事宜

微信小程序vedio視頻全屏無法遮擋textarea

微信小程序?qū)徍瞬煌ㄟ^的解決方法

CSS/兩欄并列等高布局

react.js避免在input/textareah中輸入(setState)時(shí)重新渲染整個(gè)頁面

前端修煉之路

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

5、web爬蟲，scrapy模塊,解決重復(fù)ur——自動遞歸url

【百度云搜索:http://bdy.lqkweb.com】

【搜網(wǎng)盤:http://www.swpan.cn】

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

5、web爬蟲，scrapy模塊,解決重復(fù)ur——自動遞歸url