scrapy爬取Drupal網(wǎng)站，提示404錯(cuò)誤

Xufc 發(fā)布于2019-07-31 10:09 / 1459人閱讀

摘要：最近在學(xué)習(xí)的爬蟲。以前堅(jiān)持用做爬蟲。所以就開始動(dòng)手用爬取一些東西。分頁(yè)抓取的時(shí)候，首頁(yè)是正常的，爬取第二頁(yè)的時(shí)候，大概率是拋錯(cuò)提示，要么就是給我返回了一些臟數(shù)據(jù)。這個(gè)網(wǎng)站還真是老謀深算啊。然后我仔細(xì)分析了下網(wǎng)站的請(qǐng)求頭。

最近在學(xué)習(xí)Python的爬蟲。以前堅(jiān)持用nodejs做爬蟲。前兩天閑得無(wú)聊，在慕課上看了下scrapy的課程。然后發(fā)現(xiàn)這個(gè)框架的設(shè)計(jì)真模塊化。所以就開始動(dòng)手用scrapy爬取一些東西。
然后我的目標(biāo)網(wǎng)站是個(gè)drupal做的。分頁(yè)抓取的時(shí)候，首頁(yè)是正常的，爬取第二頁(yè)的時(shí)候，大概率是拋錯(cuò)提示：404，要么就是給我返回了一些臟數(shù)據(jù)。

這個(gè)網(wǎng)站還真是老謀深算啊。然后我仔細(xì)分析了下網(wǎng)站的請(qǐng)求頭。然后加上了如下兩條，請(qǐng)求就正常了：

request.headers["accept"] = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8"
request.headers["cache-control"] = "no-cache"

看來(lái)還是得注意請(qǐng)求頭的細(xì)節(jié)。

GPU云服務(wù)器云服務(wù)器網(wǎng)站404錯(cuò)誤 scrapy爬取實(shí)例點(diǎn)擊網(wǎng)頁(yè)提示?404? asp提示404

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/43333.html

相關(guān)文章

scrapy入門教程——爬取豆瓣電影Top250！

摘要：注意爬豆爬一定要加入選項(xiàng)，因?yàn)橹灰馕龅骄W(wǎng)站的有，就會(huì)自動(dòng)進(jìn)行過(guò)濾處理，把處理結(jié)果分配到相應(yīng)的類別，但偏偏豆瓣里面的為空不需要分配，所以一定要關(guān)掉這個(gè)選項(xiàng)。本課只針對(duì)python3環(huán)境下的Scrapy版本（即scrapy1.3+）選取什么網(wǎng)站來(lái)爬取呢？對(duì)于歪果人，上手練scrapy爬蟲的網(wǎng)站一般是官方練手網(wǎng)站 http://quotes.toscrape.com 我們中國(guó)人，當(dāng)然...

senntyou 2019-07-30 15:05 評(píng)論0 收藏0
首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時(shí)間永遠(yuǎn)都過(guò)得那么快，一晃從年注冊(cè)，到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章，已經(jīng)太多了，是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂，橡皮擦給設(shè)置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評(píng)論0 收藏0
Scrapy 框架入門簡(jiǎn)介

摘要：解析的方法，每個(gè)初始完成下載后將被調(diào)用，調(diào)用的時(shí)候傳入從每一個(gè)傳回的對(duì)象來(lái)作為唯一參數(shù)，主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁(yè)數(shù)據(jù)，提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁(yè)的請(qǐng)求。 Scrapy 框架 Scrapy是用純Python實(shí)現(xiàn)一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架，用途非常廣泛。框架的力量，用戶只需要定制開發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲，用來(lái)抓取網(wǎng)頁(yè)內(nèi)容以及各種圖片，非常...

Coding01 2019-07-30 15:39 評(píng)論0 收藏0
爬蟲入門

摘要：通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲，爬取對(duì)象從一些種子擴(kuò)充到整個(gè)。為提高工作效率，通用網(wǎng)絡(luò)爬蟲會(huì)采取一定的爬取策略。介紹是一個(gè)國(guó)人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。爬蟲簡(jiǎn)單的說(shuō)網(wǎng)絡(luò)爬蟲（Web crawler）也叫做網(wǎng)絡(luò)鏟（Web scraper）、網(wǎng)絡(luò)蜘蛛（Web spider），其行為一般是先爬到對(duì)應(yīng)的網(wǎng)頁(yè)上，再把需要的信息鏟下來(lái)。分類網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)，...

defcon 2019-07-30 17:07 評(píng)論0 收藏0

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Xufc

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

【C語(yǔ)言進(jìn)階】??數(shù)據(jù)類型&&整型在內(nèi)存中的存儲(chǔ)

閱讀 1314·2021-10-08 10:05
服務(wù)區(qū)怎么查主機(jī)名-手機(jī)服務(wù)器地址怎么查？

閱讀 4137·2021-09-22 15:54
維珍銀河子公司將與SPAC合并上市，預(yù)計(jì)年底登陸納斯達(dá)克

閱讀 3115·2021-08-27 16:18
css元素居中方法歸納

閱讀 3118·2019-08-30 15:55
CSS筆記 :hover改變另一個(gè)元素樣式

閱讀 1451·2019-08-29 12:54
javscript中this初探

閱讀 2758·2019-08-26 11:42
H5 postMessage解決iframe跨域、跨窗口傳遞消息

閱讀 558·2019-08-26 11:39
ES 6 新增的塊級(jí)作用域let

閱讀 2140·2019-08-26 10:11

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！