成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Python爬蟲理論之cookie驗證,不回顧下歷史,套路都不知道怎么來的!

fuyi501 / 3662人閱讀

摘要:在發(fā)明之初,為了幫助服務(wù)器同步網(wǎng)頁上的用戶信息,同時保存用戶操作,以此減輕服務(wù)器壓力。由正在瀏覽的網(wǎng)站創(chuàng)建的被稱為第一方。這些第三方怎么來的呢他們又有什么作用了。寫在最后了解歷史,有助于,我們更好的定位問題。

cookie在發(fā)明之初,為了幫助服務(wù)器同步網(wǎng)頁上的用戶信息,同時保存用戶操作,以此減輕服務(wù)器壓力。

沒有cookie之前,人們還停留在像電視一樣只能對網(wǎng)頁進行點播,網(wǎng)站分辨不出是誰在通信。

題外話:第一代密碼,屬于通用性的密鑰

有了cookie后,你就那個網(wǎng)頁做交互了,這時才有了網(wǎng)站賬號。

由正在瀏覽的網(wǎng)站創(chuàng)建的cookie被稱為第一方cookie。

這個東西很重要,你要是不信邪,把這種第一方cookie給禁止了,

那么,恭喜你,回到了廣播時代。

Python requests庫默認是打開了cookie的。

– 檢查cookie

import requestsfrom requests.cookies import RequestsCookieJarheaders = {    "Host": "accounts.douban.com",    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36",    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",    "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",    "Accept-Encoding": "gzip, deflate, br",    "Connection": "keep-alive"           }request_url = "https://accounts.douban.com/passport/login"res = requests.get(request_url, headers=headers)status_code = res.status_coderes_header = res.headersres_cookies = res.cookiescookie1111 = res.cookies.get_dict()                             # 格式化 字典形式輸出cookie2222 = requests.utils.dict_from_cookiejar(res_cookies)    # 格式化 字典形式輸出for cookie in res_cookies:    print(cookie.name+"/t"+cookie.value)print("響應(yīng)狀態(tài)碼:", status_code)print("響應(yīng)請求請求頭:", res_header)print("響應(yīng)cookies:", res_cookies)print("格式化cookie1111 :", cookie1111)print("格式化cookie2222 :", cookie2222)

– 到這里自帶cookie說明白了!

接下來,我們引入一個概念 第三方cookie

使用空瀏覽器來看下效果。

清除瀏覽器cookie記錄,也可以進行模擬。

進入一個網(wǎng)站csdn.net,

然后點擊網(wǎng)頁地址欄左側(cè)的那個小鎖就能看到這些信息。

正在訪問的csdn.net以外

還有來自其它40個cookie,這些在你訪問的網(wǎng)址之外的域名,創(chuàng)建的cookie就被稱作,作為第三方cookie。

這些第三方cookie怎么來的呢?他們又有什么作用了。

你通過進入csdn.com,這個網(wǎng)站就訪問了baidu.com的服務(wù)器了。

咱們按下F12進入瀏覽器的開發(fā)者模式中,觀察一下網(wǎng)絡(luò)結(jié)構(gòu)。

仔細查看一下這個網(wǎng)站的加載,我們可以在它的目錄中發(fā)現(xiàn)baidu.com來源,他使用了baidu.com提供的功能,編寫進了自己的網(wǎng)站代碼中。

– 我們在訪問這個網(wǎng)站的過程中,也同時使用了百度為你提供的服務(wù),那么這個服務(wù)是什么呢?


# 不得不提cookie的另外一個作用! ## 除了可以綁定網(wǎng)頁和用戶的身份,還可以記錄網(wǎng)頁的瀏覽歷史。 ### 這樣就給 ==廣告提供商== 機會,使用不同的代碼模塊,嵌入到不同的網(wǎng)站中,以此實行產(chǎn)品推薦。 ### 第三方cookie,它默默的,把你的喜好記錄下來,在你進入其他網(wǎng)站時,再通過讀取之前已經(jīng)記錄好的信息,這樣就能對你進行個性化廣告推薦。

禁用第三方cookie是不是就沒有廣告了?

這也是爬蟲遇到最多的情況。

手動模擬一下,禁用第三方cookie,會發(fā)現(xiàn) 驗證碼 輸入次數(shù)開始變得頻繁了。

鑒于此,爬蟲產(chǎn)生了另外一個工具selenium。

寫在最后

1.了解歷史,有助于,我們更好的定位問題。

2.很多博主只告訴你們,第二次爬去的時候需要攜帶cookie,對第三方cookie只字不提

import requestscookies="從網(wǎng)上復(fù)制的cookie值"cookies_dict={}for i in cookies.split("; "):   cookies_dict[i.splict("=")[0]] = i.splict("=")[1]html=requests.get(url="",cookies=cookies_dict}

3.更高級的工具,學(xué)習(xí),使用。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/119407.html

相關(guān)文章

  • 知乎最新版模擬登陸詳解,小白也能懂

    摘要:模擬登陸知乎這個知乎的登陸也是坑滿滿,我也給踩了幾個,這個就直接說坑吧,其他的就不多說了。 以下內(nèi)容僅交流學(xué)習(xí),請勿用于非法用途 如果你現(xiàn)在想模擬登陸知乎,會發(fā)現(xiàn) fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 來...

    buildupchao 評論0 收藏0
  • 知乎最新版模擬登陸詳解,小白也能懂

    摘要:模擬登陸知乎這個知乎的登陸也是坑滿滿,我也給踩了幾個,這個就直接說坑吧,其他的就不多說了。 以下內(nèi)容僅交流學(xué)習(xí),請勿用于非法用途 如果你現(xiàn)在想模擬登陸知乎,會發(fā)現(xiàn) fromdata 是一串加密的字符串 showImg(https://segmentfault.com/img/remote/1460000018245629); 看了之后是不是很痛苦?你是不是就想使用 selenium 來...

    xuxueli 評論0 收藏0
  • 大話爬蟲的實踐技巧

    摘要:圖意淫爬蟲與反爬蟲間的對決數(shù)據(jù)的重要性如今已然是大數(shù)據(jù)時代,數(shù)據(jù)正在驅(qū)動著業(yè)務(wù)開發(fā),驅(qū)動著運營手段,有了數(shù)據(jù)的支撐可以對用戶進行用戶畫像,個性化定制,數(shù)據(jù)可以指明方案設(shè)計和決策優(yōu)化方向,所以互聯(lián)網(wǎng)產(chǎn)品的開發(fā)都是離不開對數(shù)據(jù)的收集和分析,數(shù) showImg(https://segmentfault.com/img/remote/1460000013428119?w=539&h=337)...

    沈儉 評論0 收藏0
  • 大話爬蟲的基本套路

    摘要:有什么作用通過有效的爬蟲手段批量采集數(shù)據(jù),可以降低人工成本,提高有效數(shù)據(jù)量,給予運營銷售的數(shù)據(jù)支撐,加快產(chǎn)品發(fā)展。因為信息是完全公開的,所以是合法的。 showImg(https://segmentfault.com/img/remote/1460000011359885?w=566&h=316);   什么是爬蟲? 網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,如果把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么蜘蛛就是在...

    Towers 評論0 收藏0
  • 首次公開,整理12年積累的博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<