摘要:二準(zhǔn)備工作環(huán)境開發(fā)工具模塊三分析網(wǎng)站進(jìn)入網(wǎng)址,需要登錄因此我們需要手動登錄后,然后看到已經(jīng)有了因此我們直接在請求的時候攜帶自己的,如果我們登陸后,可以看到自己的用戶名四代碼編寫請求,跳過驗證不愿透露姓名網(wǎng)友有效無效成功
提前聲明:該專欄涉及的所有案例均為學(xué)習(xí)使用,如有侵權(quán),請聯(lián)系本人刪帖!
對于一些網(wǎng)站,我們在抓取時候需要補(bǔ)充請求頭requests headers
Host: www.renren.comProxy-Connection: keep-alivePragma: no-cacheCache-Control: no-cacheUpgrade-Insecure-Requests: 1User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3877.400 QQBrowser/10.8.4506.400Accept: text/htmlAccept-Encoding: gzip, deflateAccept-Language: zh-CN,zh;q=0.9Cookie: ***
但是對于一些網(wǎng)站,我們?nèi)绻坏卿?,那么我們就無法進(jìn)入網(wǎng)站內(nèi)部,因此就需要登錄,那么登錄后,我們就可以獲取到cookie值,而有了cookie值,我們就可以進(jìn)入網(wǎng)站,抓取想要的信息。
網(wǎng)站:https://codechina.csdn.net/explore/welcome
進(jìn)入網(wǎng)址,需要登錄
因此我們需要手動登錄后,然后看到已經(jīng)有了cookie
因此我們直接在請求的時候攜帶自己的cookie,如果我們登陸后,可以看到自己的用戶名
# -*- coding: utf-8 -*-import requestsurl = "https://codechina.csdn.net/explore/welcome"headers = { "Cookie": "...", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36"}# 請求,verify=False 跳過ssl驗證response = requests.get(url, headers=headers, verify=False)response.encoding = "utf-8"if "不愿透露姓名の網(wǎng)友" in response.text: print("cookie有效")else: print("cookie無效")
成功!
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/122373.html
摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...
摘要:方法不僅適用于百度云,別的一些比較難以模擬登陸的網(wǎng)站都可以按照這種方式分析。本文要求讀者具有模擬登陸主要是抓包和閱讀代碼和密碼學(xué)的基本知識。和模擬登陸微博的分析流程一樣,我們首先要做的是以正常人的流程完整的登錄一遍百度網(wǎng)盤。 這是第二篇從簡書搬運(yùn)過來的文章(大家別誤會,是我原創(chuàng)的)。因為前一篇文章,我看反響還挺好的,所以把這篇也搬運(yùn)過來了,其實目的還是為宣傳自己的分布式微博爬蟲(該項目...
摘要:提前聲明該專欄涉及的所有案例均為學(xué)習(xí)使用,如有侵權(quán),請聯(lián)系本人刪帖文章目錄一前言二網(wǎng)站分析三編寫面向?qū)ο蟠a四多線程代碼一前言在這里插入圖片描述在傳送門自己爬取過的個基礎(chǔ)爬蟲案例這個案例中,我們講解過對騰訊招聘信息的 ...
摘要:耗時代碼運(yùn)行到這句之后觸發(fā)隱式等待,在輪詢檢查后仍然沒有定位到元素,拋出異常。耗時值得一提的是,對于定位不到元素的時候,從耗時方面隱式等待和強(qiáng)制等待沒什么區(qū)別。 ...
摘要:爬蟲架構(gòu)架構(gòu)組成管理器管理待爬取的集合和已爬取的集合,傳送待爬取的給網(wǎng)頁下載器。網(wǎng)頁下載器爬取對應(yīng)的網(wǎng)頁,存儲成字符串,傳送給網(wǎng)頁解析器。從文檔中獲取所有文字內(nèi)容正則匹配后記爬蟲基礎(chǔ)知識,至此足夠,接下來,在實戰(zhàn)中學(xué)習(xí)更高級的知識。 前言 Python非常適合用來開發(fā)網(wǎng)頁爬蟲,理由如下:1、抓取網(wǎng)頁本身的接口相比與其他靜態(tài)編程語言,如java,c#,c++,python抓取網(wǎng)頁文檔的接...
閱讀 3262·2021-10-13 09:39
閱讀 2017·2021-09-27 13:36
閱讀 3080·2021-09-22 16:02
閱讀 2603·2021-09-10 10:51
閱讀 1585·2019-08-29 17:15
閱讀 1537·2019-08-29 16:14
閱讀 3513·2019-08-26 11:55
閱讀 2555·2019-08-26 11:50