摘要:導(dǎo)入有以下兩種方式,喜歡那種方式看個(gè)人愛好發(fā)送請(qǐng)求反反爬蟲的基本策略之一設(shè)置瀏覽器標(biāo)識(shí)自己要偽裝的頭部設(shè)置證書反反爬蟲的基本策略之一設(shè)置瀏覽器標(biāo)識(shí)自己要偽裝的頭部構(gòu)建請(qǐng)求對(duì)象發(fā)送請(qǐng)求發(fā)送請(qǐng)求將字符串類型轉(zhuǎn)化為
導(dǎo)入urllib,有以下兩種方式,喜歡那種方式看個(gè)人愛好:
import urllib.request import urllib.parse #from urllib import reuqest
urllib發(fā)送get請(qǐng)求:
# 反反爬蟲的基本策略之一:設(shè)置user-agent瀏覽器標(biāo)識(shí)自己要偽裝的頭部 import urllib.request import urllib.parse #設(shè)置ssl證書 import ssl ssl._create_default_https_context = ssl._create_unverified_context url = "http://www.baidu.com/" # response = urllib.request.urlopen(url) # print(response.read().decode()) # 反反爬蟲的基本策略之一:設(shè)置user-agent瀏覽器標(biāo)識(shí)自己要偽裝的頭部 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36", } # 構(gòu)建請(qǐng)求對(duì)象 request = urllib.request.Request(url=url, headers=headers) # 發(fā)送請(qǐng)求 response = urllib.request.urlopen(request) print(response.read().decode())
urllib發(fā)送post請(qǐng)求:
import urllib.request import urllib.parse post_url = "http://fanyi.baidu.com/v2transapi" word = "wolf" formdata = { "from": "en", "to": "zh", "query": word, "transtype": "realtime", "simple_means_flag": "3", "sign": "275695.55262", "token": "7d9697542b6337bfd8f1b54c7887dcf5", } headers = { "Host": "fanyi.baidu.com", # "Connection": "keep-alive", # "Content-Length": "120", # "Accept": "*/*", "Origin": "http://fanyi.baidu.com", "X-Requested-With": "XMLHttpRequest", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36", # "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8", "Referer": "http://fanyi.baidu.com/?aldtype=16047", # "Accept-Encoding": "gzip, deflate", "Accept-Language": "zh-CN,zh;q=0.9", "Cookie": "BAIDUID=D1620A70988D2694BE528E5CEFE5B5F3:FG=1; BIDUPSID=D1620A70988D2694BE528E5CEFE5B5F3; PSTM=1526524899; to_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; from_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; H_PS_PSSID=; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1527210729,1527556520; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1527556520", } request = urllib.request.Request(url=post_url, headers=headers) formdata = urllib.parse.urlencode(formdata).encode() response = urllib.request.urlopen(request, formdata) print(response.read().decode())
urllib.parse
parse.quote#將字符串類型轉(zhuǎn)化為unicode類型 parse.urlcode#傳入的數(shù)據(jù)是字典格式的,
urllib.response
impport urllib.response #狀態(tài)碼 urllib.response.status #請(qǐng)求頭信息: urllib.response.headers
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/42164.html
摘要:文章目錄一前言框架二網(wǎng)址請(qǐng)求打開網(wǎng)址超時(shí)設(shè)置錯(cuò)誤抓取三更深請(qǐng)求打開網(wǎng)址請(qǐng)求頭添加鏈接解析四協(xié)議五萬能視頻下載一前言框架之前我一直沒想教大家,思考萬分,還是要補(bǔ)一下這個(gè)教程。對(duì)中文進(jìn)行編碼。 ...
摘要:想辦法區(qū)分爬蟲程序和正常的用戶。爬蟲是工具性程序,對(duì)速度和效率要求較高。生態(tài)圈完善,是最大對(duì)手。最要命的是爬蟲需要經(jīng)常修改部分代碼。爬蟲分類通用爬蟲也就是百度搜狐等搜索引擎。原本是為測(cè)試來測(cè)試網(wǎng)站的,后來成了爬蟲工程師最喜愛的工具。 一、爬蟲的基本知識(shí): 1. 什么是爬蟲 爬蟲的英文翻譯為spider或者crawder,意為蜘蛛或者爬行者,從字面意思我們可以體會(huì)到:爬蟲就是把自己當(dāng)做蜘...
摘要:發(fā)送請(qǐng)求方不希望被跟蹤。主要用來將偽裝成一個(gè)正常的瀏覽器。該字典就是說是網(wǎng)絡(luò)協(xié)議名稱,是代理的。另外一般會(huì)明確指定資源存放的位置。意思是將現(xiàn)在提交的數(shù)據(jù)存放于下第篇。請(qǐng)求刪除某一個(gè)資源。向服務(wù)器提交數(shù)據(jù)。 前一個(gè)教程我們涉及到了urllib2的一些高級(jí)應(yīng)用。這一片文章我們來比較系統(tǒng)的介紹一下。 該篇教程參考了靜覓的博文:http://cuiqingcai.com/954.html。寫這...
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...
摘要:爬蟲和反爬蟲就是一個(gè)貓和老鼠的游戲,道高一尺魔高一丈,兩者反復(fù)糾纏。由于協(xié)議的無狀態(tài)性,登錄驗(yàn)證都是通過傳遞來實(shí)現(xiàn)的。通過瀏覽器登錄一次,登錄信息的是就會(huì)被瀏覽器保存下來。模塊就是這樣一個(gè)從瀏覽器提取保存的的工具。 showImg(https://segmentfault.com/img/bVbsjnC?w=741&h=488); 很多用Python的人可能都寫過網(wǎng)絡(luò)爬蟲,自動(dòng)化獲取網(wǎng)...
閱讀 3301·2021-10-11 11:08
閱讀 4441·2021-09-22 15:54
閱讀 922·2019-08-30 15:56
閱讀 877·2019-08-30 15:55
閱讀 3550·2019-08-30 15:52
閱讀 1360·2019-08-30 15:43
閱讀 1944·2019-08-30 11:14
閱讀 2514·2019-08-29 16:11