6、web爬蟲講解2—urllib庫爬蟲—基礎(chǔ)使用—超時(shí)設(shè)置—自動(dòng)模擬http請(qǐng)求

AlanKeene 發(fā)布于2019-07-31 10:34 / 2232人閱讀

摘要：百度云搜索搜網(wǎng)盤利用系統(tǒng)自帶的庫寫簡(jiǎn)單爬蟲獲取一個(gè)的源碼讀出源碼內(nèi)容將字節(jié)轉(zhuǎn)化成字符串正則獲取頁面指定內(nèi)容獲取源碼學(xué)院實(shí)戰(zhàn)群正則規(guī)則，獲取到號(hào)將網(wǎng)絡(luò)文件下載保存到本地，參數(shù)網(wǎng)絡(luò)文件，參數(shù)保存路徑

【百度云搜索:http://www.lqkweb.com】 【搜網(wǎng)盤:http://www.swpan.cn】

利用python系統(tǒng)自帶的urllib庫寫簡(jiǎn)單爬蟲

urlopen()獲取一個(gè)URL的html源碼
read()讀出html源碼內(nèi)容
decode("utf-8")將字節(jié)轉(zhuǎn)化成字符串

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib.request
html = urllib.request.urlopen("http://edu.51cto.com/course/8360.html").read().decode("utf-8")
print(html)

正則獲取頁面指定內(nèi)容

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib.request
import re
html = urllib.request.urlopen("http://edu.51cto.com/course/8360.html").read().decode("utf-8")   #獲取html源碼
pat = "51CTO學(xué)院Python實(shí)戰(zhàn)群((d*?))"      #正則規(guī)則，獲取到QQ號(hào)
rst = re.compile(pat).findall(html)
print(rst)

#["325935753"]

urlretrieve()將網(wǎng)絡(luò)文件下載保存到本地，參數(shù)1網(wǎng)絡(luò)文件URL，參數(shù)2保存路徑

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from urllib import request
import re
import os

file_path = os.path.join(os.getcwd() + "/222.html")    #拼接文件保存路徑
# print(file_path)
request.urlretrieve("http://edu.51cto.com/course/8360.html", file_path) #下載這個(gè)文件保存到指定路徑

urlcleanup()清除爬蟲產(chǎn)生的內(nèi)存

#!/usr/bin/env python
# -*- coding:utf-8 -*-
from urllib import request
import re
import os

file_path = os.path.join(os.getcwd() + "/222.html")    #拼接文件保存路徑
# print(file_path)
request.urlretrieve("http://edu.51cto.com/course/8360.html", file_path) #下載這個(gè)文件保存到指定路徑
request.urlcleanup()

info()查看抓取頁面的簡(jiǎn)介

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib.request
import re
html = urllib.request.urlopen("http://edu.51cto.com/course/8360.html")   #獲取html源碼
a = html.info()
print(a)

# C:UsersadminAppDataLocalProgramsPythonPython35python.exe H:/py/15/chshi.py
# Date: Tue, 25 Jul 2017 16:08:17 GMT
# Content-Type: text/html; charset=UTF-8
# Transfer-Encoding: chunked
# Connection: close
# Set-Cookie: aliyungf_tc=AQAAALB8CzAikwwA9aReq63oa31pNIez; Path=/; HttpOnly
# Server: Tengine
# Vary: Accept-Encoding
# Vary: Accept-Encoding
# Vary: Accept-Encoding

getcode()獲取狀態(tài)碼

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib.request
import re
html = urllib.request.urlopen("http://edu.51cto.com/course/8360.html")   #獲取html源碼
a = html.getcode()  #獲取狀態(tài)碼
print(a)

#200

geturl()獲取當(dāng)前抓取頁面的URL

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib.request
import re
html = urllib.request.urlopen("http://edu.51cto.com/course/8360.html")   #獲取html源碼
a = html.geturl()  #獲取當(dāng)前抓取頁面的URL
print(a)

#http://edu.51cto.com/course/8360.html

timeout抓取超時(shí)設(shè)置，單位為秒

是指抓取一個(gè)頁面時(shí)對(duì)方服務(wù)器響應(yīng)太慢，或者很久沒響應(yīng)，設(shè)置一個(gè)超時(shí)時(shí)間，超過超時(shí)時(shí)間就不抓取了

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib.request
import re
html = urllib.request.urlopen("http://edu.51cto.com/course/8360.html",timeout=30)   #獲取html源碼
a = html.geturl()  #獲取當(dāng)前抓取頁面的URL
print(a)

#http://edu.51cto.com/course/8360.html

自動(dòng)模擬http請(qǐng)求

http請(qǐng)求一般常用的就是get請(qǐng)求和post請(qǐng)求

get請(qǐng)求

比如360搜索，就是通過get請(qǐng)求并且將用戶的搜索關(guān)鍵詞傳入到服務(wù)器獲取數(shù)據(jù)的

所以我們可以模擬百度http請(qǐng)求，構(gòu)造關(guān)鍵詞自動(dòng)請(qǐng)求

quote()將關(guān)鍵詞轉(zhuǎn)碼成瀏覽器認(rèn)識(shí)的字符，默認(rèn)網(wǎng)站不能是中文

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request
import re
gjc = "手機(jī)"     #設(shè)置關(guān)鍵詞
gjc = urllib.request.quote(gjc)         #將關(guān)鍵詞轉(zhuǎn)碼成瀏覽器認(rèn)識(shí)的字符，默認(rèn)網(wǎng)站不能是中文
url = "https://www.so.com/s?q="+gjc     #構(gòu)造url地址
# print(url)
html = urllib.request.urlopen(url).read().decode("utf-8")  #獲取html源碼
pat = "(w*w*w*)"            #正則獲取相關(guān)標(biāo)題
rst = re.compile(pat).findall(html)
# print(rst)
for i in rst:
    print(i)                            #循環(huán)出獲取的標(biāo)題

    # 官網(wǎng) < em > 手機(jī) < / em >
    # 官網(wǎng) < em > 手機(jī) < / em >
    # 官網(wǎng) < em > 手機(jī) < / em > 這么低的價(jià)格
    # 大牌 < em > 手機(jī) < / em > 低價(jià)搶
    # < em > 手機(jī) < / em >
    # 淘寶網(wǎng)推薦 < em > 手機(jī) < / em >
    # < em > 手機(jī) < / em >
    # < em > 手機(jī) < / em >
    # < em > 手機(jī) < / em >
    # < em > 手機(jī) < / em >
    # 蘇寧易購買 < em > 手機(jī) < / em >
    # 買 < em > 手機(jī) < / em >
    # 買 < em > 手機(jī) < / em >

post請(qǐng)求

urlencode()封裝post請(qǐng)求提交的表單數(shù)據(jù)，參數(shù)是字典形式的鍵值對(duì)表單數(shù)據(jù)
Request()提交post請(qǐng)求，參數(shù)1是url地址，參數(shù)2是封裝的表單數(shù)據(jù)

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import urllib.request
import urllib.parse

posturl = "http://www.iqianyue.com/mypost/"
shuju = urllib.parse.urlencode({                #urlencode()封裝post請(qǐng)求提交的表單數(shù)據(jù)，參數(shù)是字典形式的鍵值對(duì)表單數(shù)據(jù)
    "name": "123",
    "pass": "456"
    }).encode("utf-8")
req = urllib.request.Request(posturl,shuju)     #Request()提交post請(qǐng)求，參數(shù)1是url地址，參數(shù)2是封裝的表單數(shù)據(jù)
html = urllib.request.urlopen(req).read().decode("utf-8")  #獲取post請(qǐng)求返回的頁面
print(html)

【轉(zhuǎn)載自：http://www.leiqiankun.com/?id=49】

云服務(wù)器 GPU云服務(wù)器模擬HTTP請(qǐng)求模擬發(fā)送http請(qǐng)求 HTTP請(qǐng)求模擬器模擬爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/44039.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

AlanKeene

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow保存pb

閱讀 3302·2023-04-26 02:42
Java基礎(chǔ)學(xué)習(xí)教程，eclipse簡(jiǎn)單使用教程（Java集成開發(fā)工具）

閱讀 803·2021-10-09 09:41
yolov5無從下手？一篇就夠,2021年全部基于最新配置的yolo入門升級(jí)路線

閱讀 3251·2021-09-06 15:02
【Cute-Webpack】Webpack4 入門手冊(cè)（共 18 章）

閱讀 760·2019-08-26 10:45
CSS尺寸單位介紹

閱讀 493·2019-08-23 15:53
頁面快速定位到指定位置的幾個(gè)方法

閱讀 752·2019-08-22 18:10
node.js之readline模塊的使用

閱讀 560·2019-08-22 18:01
兩個(gè)函數(shù)式解決大數(shù)相加的方法

閱讀 3526·2019-08-22 17:34

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

6、web爬蟲講解2—urllib庫爬蟲—基礎(chǔ)使用—超時(shí)設(shè)置—自動(dòng)模擬http請(qǐng)求

相關(guān)文章

**7、web爬蟲講解2—urllib庫爬蟲—狀態(tài)嗎—異常處理—瀏覽器偽裝技術(shù)、設(shè)置用戶代理**

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---20、使用Urllib：發(fā)送請(qǐng)求

**9、web爬蟲講解2—urllib庫爬蟲—實(shí)戰(zhàn)爬取搜狗微信公眾號(hào)—抓包軟件安裝Fiddler4講解**

**8、web爬蟲講解2—urllib庫爬蟲—ip代理—用戶代理和ip代理結(jié)合應(yīng)用**

Python3網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)---25、requests：高級(jí)用法

發(fā)表評(píng)論

0條評(píng)論

AlanKeene

男|高級(jí)講師

TA的文章

tensorflow保存pb

Java基礎(chǔ)學(xué)習(xí)教程，eclipse簡(jiǎn)單使用教程（Java集成開發(fā)工具）

yolov5無從下手？一篇就夠,2021年全部基于最新配置的yolo入門升級(jí)路線

【Cute-Webpack】Webpack4 入門手冊(cè)（共 18 章）

CSS尺寸單位介紹

頁面快速定位到指定位置的幾個(gè)方法

node.js之readline模塊的使用

兩個(gè)函數(shù)式解決大數(shù)相加的方法

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！

6、web爬蟲講解2—urllib庫爬蟲—基礎(chǔ)使用—超時(shí)設(shè)置—自動(dòng)模擬http請(qǐng)求

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購！