成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

scrapy爬取Drupal網(wǎng)站,提示404錯(cuò)誤

Xufc / 1459人閱讀

摘要:最近在學(xué)習(xí)的爬蟲。以前堅(jiān)持用做爬蟲。所以就開始動(dòng)手用爬取一些東西。分頁(yè)抓取的時(shí)候,首頁(yè)是正常的,爬取第二頁(yè)的時(shí)候,大概率是拋錯(cuò)提示,要么就是給我返回了一些臟數(shù)據(jù)。這個(gè)網(wǎng)站還真是老謀深算啊。然后我仔細(xì)分析了下網(wǎng)站的請(qǐng)求頭。

最近在學(xué)習(xí)Python的爬蟲。以前堅(jiān)持用nodejs做爬蟲。前兩天閑得無(wú)聊,在慕課上看了下scrapy的課程。然后發(fā)現(xiàn)這個(gè)框架的設(shè)計(jì)真模塊化。所以就開始動(dòng)手用scrapy爬取一些東西。
然后我的目標(biāo)網(wǎng)站是個(gè)drupal做的。分頁(yè)抓取的時(shí)候,首頁(yè)是正常的,爬取第二頁(yè)的時(shí)候,大概率是拋錯(cuò)提示:404,要么就是給我返回了一些臟數(shù)據(jù)。

這個(gè)網(wǎng)站還真是老謀深算啊。然后我仔細(xì)分析了下網(wǎng)站的請(qǐng)求頭。然后加上了如下兩條,請(qǐng)求就正常了:

request.headers["accept"] = "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8"
request.headers["cache-control"] = "no-cache"

看來(lái)還是得注意請(qǐng)求頭的細(xì)節(jié)。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/43333.html

相關(guān)文章

  • scrapy入門教程——爬取豆瓣電影Top250!

    摘要:注意爬豆爬一定要加入選項(xiàng),因?yàn)橹灰馕龅骄W(wǎng)站的有,就會(huì)自動(dòng)進(jìn)行過(guò)濾處理,把處理結(jié)果分配到相應(yīng)的類別,但偏偏豆瓣里面的為空不需要分配,所以一定要關(guān)掉這個(gè)選項(xiàng)。 本課只針對(duì)python3環(huán)境下的Scrapy版本(即scrapy1.3+) 選取什么網(wǎng)站來(lái)爬取呢? 對(duì)于歪果人,上手練scrapy爬蟲的網(wǎng)站一般是官方練手網(wǎng)站 http://quotes.toscrape.com 我們中國(guó)人,當(dāng)然...

    senntyou 評(píng)論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時(shí)間永遠(yuǎn)都過(guò)得那么快,一晃從年注冊(cè),到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評(píng)論0 收藏0
  • Scrapy 框架入門簡(jiǎn)介

    摘要:解析的方法,每個(gè)初始完成下載后將被調(diào)用,調(diào)用的時(shí)候傳入從每一個(gè)傳回的對(duì)象來(lái)作為唯一參數(shù),主要作用如下負(fù)責(zé)解析返回的網(wǎng)頁(yè)數(shù)據(jù),提取結(jié)構(gòu)化數(shù)據(jù)生成生成需要下一頁(yè)的請(qǐng)求。 Scrapy 框架 Scrapy是用純Python實(shí)現(xiàn)一個(gè)為了爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架,用途非常廣泛。 框架的力量,用戶只需要定制開發(fā)幾個(gè)模塊就可以輕松的實(shí)現(xiàn)一個(gè)爬蟲,用來(lái)抓取網(wǎng)頁(yè)內(nèi)容以及各種圖片,非常...

    Coding01 評(píng)論0 收藏0
  • 爬蟲入門

    摘要:通用網(wǎng)絡(luò)爬蟲通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲,爬取對(duì)象從一些種子擴(kuò)充到整個(gè)。為提高工作效率,通用網(wǎng)絡(luò)爬蟲會(huì)采取一定的爬取策略。介紹是一個(gè)國(guó)人編寫的強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng)并帶有強(qiáng)大的。 爬蟲 簡(jiǎn)單的說(shuō)網(wǎng)絡(luò)爬蟲(Web crawler)也叫做網(wǎng)絡(luò)鏟(Web scraper)、網(wǎng)絡(luò)蜘蛛(Web spider),其行為一般是先爬到對(duì)應(yīng)的網(wǎng)頁(yè)上,再把需要的信息鏟下來(lái)。 分類 網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù),...

    defcon 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<