摘要:最簡單直接抓取頁面代碼使用構(gòu)造一個對象,推薦發(fā)送數(shù)據(jù),張三發(fā)送數(shù)據(jù),張三發(fā)送數(shù)據(jù)和張三
1、最簡單:直接抓取頁面代碼
import urllib.request import urllib.error url = "http://test.com/test.html" try: resp = urllib.request.urlopen(url) except urllib.error.HTTPError as e: print(e.code, e.msg) except urllib.error.URLError as e: print(e.reason) else: result = resp.read().decode("utf-8") print(result)2、使用 Request
import urllib.request import urllib.error url = "http://test.com/test.html" try: req = urllib.request.Request(url) # 構(gòu)造一個Request對象,推薦 resp = urllib.request.urlopen(req) except urllib.error.HTTPError as e: print(e.code, e.msg) except urllib.error.URLError as e: print(e.reason) else: result = resp.read().decode("utf-8") print(result)3、發(fā)送數(shù)據(jù),GET
import urlib.request import urllib.parse url = "http://test.com/a.php?act=login&id=123" req = urllib.request.Request(url) resp = urllib.request.urlopen(req) # or url = "http://test.com/a.php" params = { "act": "login", "id": 123, "name": u"張三" } geturl = url + "?" + urllib.parse.urlencode(params) req = urllib.request.Request(geturl) resp = urllib.request.urlopen(req) print(resp.read().decode("utf-8")) # {"act":"login","name":"u5f20u4e09","id":"123"}4、發(fā)送數(shù)據(jù),POST
import urllib.request import urllib.parse url = "http://test.com/a.php" params = { "act": "login", "login[name]": u"張三", "login[password]": "123456" } data = urllib.parse.urlencode(params).encode("utf-8") req = urllib.request.Request(url, data) resp = urllib.request.urlopen(req) print(resp.read().decode("utf-8")) # {"act":"login","login":{"password":"123456","name":"u5f20u4e09"}}}5、發(fā)送數(shù)據(jù)和header
import urllib.request import urllib.parse url = "http://test.com/a.php" params = { "act": "login", "login[name]": u"張三", "login[password]": "123456" } data = urllib.parse.urlencode(params).encode("utf-8") headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) " "Chrome/54.0.2840.99 Safari/537.36", "Referer": "http://www.baidu.com", "haha": "xixi" } req = urllib.request.Request(url, data, headers) resp = urllib.request.urlopen(req) print(resp.read().decode("utf-8"))
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41688.html
摘要:楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),。本文來源知乎作者路人甲鏈接楚江數(shù)據(jù)提供網(wǎng)站數(shù)據(jù)采集和爬蟲軟件定制開發(fā)服務(wù),服務(wù)范圍涵蓋社交網(wǎng)絡(luò)電子商務(wù)分類信息學(xué)術(shù)研究等。 楚江數(shù)據(jù)是專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)服務(wù),現(xiàn)整理出零基礎(chǔ)如何學(xué)爬蟲技術(shù)以供學(xué)習(xí),http://www.chujiangdata.com。 第一:Python爬蟲學(xué)習(xí)系列教程(來源于某博主:htt...
摘要:其頁面如下那么我們是否可以通過來制作爬蟲來幫助我們實現(xiàn)自動下載這些電子書呢答案是筆者在空閑時間寫了一個爬蟲,主要利用函數(shù)和多線程來下載這些電子書。 ??近段時間,筆者發(fā)現(xiàn)一個神奇的網(wǎng)站:http://www.allitebooks.com/ ,該網(wǎng)站提供了大量免費的編程方面的電子書,是技術(shù)愛好者們的福音。其頁面如下: showImg(https://segmentfault.com/i...
摘要:學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分個大的版塊抓取,分析,存儲另外,比較常用的爬蟲框架,這里最后也詳細介紹一下。網(wǎng)絡(luò)爬蟲要做的,簡單來說,就是實現(xiàn)瀏覽器的功能。 Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個大的版塊:抓取,分析,存儲 另外,比較常用的爬蟲框架Scrapy,這里最后也詳細介紹一下。 首先列舉一下本人總結(jié)的相關(guān)文章,這些覆蓋了入門網(wǎng)絡(luò)爬蟲需要的基本概念和技巧:寧哥的小站-網(wǎng)絡(luò)爬蟲,當我們在瀏覽器中輸入...
摘要:數(shù)據(jù)傳送上面介紹了參數(shù),這里就是將需要的參數(shù)通過方式傳入上述代碼引入了庫,現(xiàn)在我們模擬登陸京東商場,但是應(yīng)該是無法登陸的,一般都是需要設(shè)置一些頭部的工作,或者其它的參數(shù),這里使用了庫對參數(shù),進行一下。 了解了 前面的環(huán)境搭建,以及python的基礎(chǔ)知識的學(xué)習(xí),咱們接下來學(xué)習(xí)一下,如何將網(wǎng)頁扒下來 一、案例介紹 當我們打開瀏覽器,打開頁面,看到的是好看的頁面,但是其實是由瀏覽器解釋才呈現(xiàn)...
摘要:爬蟲之請求爬取豆瓣網(wǎng)的分頁瀏覽請求請輸入想要第幾頁的數(shù)據(jù)構(gòu)建參數(shù)將字典轉(zhuǎn)化為修改肯德基配送信息請求請輸入要查詢的城市請輸入要查詢第幾頁請輸入要多少個 python爬蟲之a(chǎn)jax請求 爬取豆瓣網(wǎng)的分頁瀏覽get請求: import urllib.request import urllib.parse url = https://movie.douban.com/j/chart/top...
閱讀 1414·2021-09-02 09:53
閱讀 2677·2021-07-29 13:50
閱讀 1726·2019-08-30 11:07
閱讀 1583·2019-08-30 11:00
閱讀 1461·2019-08-29 14:00
閱讀 1853·2019-08-29 12:52
閱讀 2572·2019-08-29 11:11
閱讀 3429·2019-08-26 12:23