Python爬蟲基礎(chǔ)

bang590 發(fā)布于2019-07-25 11:23 / 1686人閱讀

摘要：爬蟲架構(gòu)架構(gòu)組成管理器管理待爬取的集合和已爬取的集合，傳送待爬取的給網(wǎng)頁下載器。網(wǎng)頁下載器爬取對應(yīng)的網(wǎng)頁，存儲成字符串，傳送給網(wǎng)頁解析器。從文檔中獲取所有文字內(nèi)容正則匹配后記爬蟲基礎(chǔ)知識，至此足夠，接下來，在實(shí)戰(zhàn)中學(xué)習(xí)更高級的知識。

前言

Python非常適合用來開發(fā)網(wǎng)頁爬蟲，理由如下：
1、抓取網(wǎng)頁本身的接口
相比與其他靜態(tài)編程語言，如java，c#，c++，python抓取網(wǎng)頁文檔的接口更簡潔；相比其他動態(tài)腳本語言，如perl，shell，python的urllib包提供了較為完整的訪問網(wǎng)頁文檔的API。（當(dāng)然ruby也是很好的選擇）
此外，抓取網(wǎng)頁有時候需要模擬瀏覽器的行為，很多網(wǎng)站對于生硬的爬蟲抓取都是封殺的。這是我們需要模擬user agent的行為構(gòu)造合適的請求，譬如模擬用戶登陸、模擬session/cookie的存儲和設(shè)置。在python里都有非常優(yōu)秀的第三方包幫你搞定，如Requests，mechanize

2、網(wǎng)頁抓取后的處理
抓取的網(wǎng)頁通常需要處理，比如過濾html標(biāo)簽，提取文本等。python的beautifulsoap提供了簡潔的文檔處理功能，能用極短的代碼完成大部分文檔的處理。
其實(shí)以上功能很多語言和工具都能做，但是用python能夠干得最快，最干凈。

Life is short, you need python.

PS：python2.x和python3.x有很大不同，本文只討論python3.x的爬蟲實(shí)現(xiàn)方法。

爬蟲架構(gòu) 架構(gòu)組成

URL管理器：管理待爬取的url集合和已爬取的url集合，傳送待爬取的url給網(wǎng)頁下載器。
網(wǎng)頁下載器（urllib）：爬取url對應(yīng)的網(wǎng)頁，存儲成字符串，傳送給網(wǎng)頁解析器。
網(wǎng)頁解析器（BeautifulSoup）：解析出有價值的數(shù)據(jù)，存儲下來，同時補(bǔ)充url到URL管理器。

運(yùn)行流程

URL管理器 基本功能

添加新的url到待爬取url集合中。

判斷待添加的url是否在容器中（包括待爬取url集合和已爬取url集合）。

獲取待爬取的url。

判斷是否有待爬取的url。

將爬取完成的url從待爬取url集合移動到已爬取url集合。

存儲方式

1、內(nèi)存（python內(nèi)存）
待爬取url集合：set()
已爬取url集合：set()

2、關(guān)系數(shù)據(jù)庫（mysql）
urls(url, is_crawled)

3、緩存（redis）
待爬取url集合：set
已爬取url集合：set

大型互聯(lián)網(wǎng)公司，由于緩存數(shù)據(jù)庫的高性能，一般把url存儲在緩存數(shù)據(jù)庫中。小型公司，一般把url存儲在內(nèi)存中，如果想要永久存儲，則存儲到關(guān)系數(shù)據(jù)庫中。

網(wǎng)頁下載器（urllib）

將url對應(yīng)的網(wǎng)頁下載到本地，存儲成一個文件或字符串。

基本方法

新建baidu.py，內(nèi)容如下：

import urllib.request

response = urllib.request.urlopen("http://www.baidu.com")
buff = response.read()
html = buff.decode("utf8")
print(html)

命令行中執(zhí)行python baidu.py，則可以打印出獲取到的頁面。

構(gòu)造Request

上面的代碼，可以修改為：

import urllib.request

request = urllib.request.Request("http://www.baidu.com")
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)

攜帶參數(shù)

新建baidu2.py，內(nèi)容如下：

import urllib.request
import urllib.parse

url = "http://www.baidu.com"
values = {"name": "voidking","language": "Python"}
data = urllib.parse.urlencode(values).encode(encoding="utf-8",errors="ignore")
headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0" }
request = urllib.request.Request(url=url, data=data,headers=headers,method="GET")
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)

使用Fiddler監(jiān)聽數(shù)據(jù)

我們想要查看一下，我們的請求是否真的攜帶了參數(shù)，所以需要使用fiddler。
打開fiddler之后，卻意外發(fā)現(xiàn)，上面的代碼會報錯504，無論是baidu.py還是baidu2.py。

雖然python有報錯，但是在fiddler中，我們可以看到請求信息，確實(shí)攜帶了參數(shù)。

經(jīng)過查找資料，發(fā)現(xiàn)python以前版本的Request都不支持代理環(huán)境下訪問https。但是，最近的版本應(yīng)該支持了才對。那么，最簡單的辦法，就是換一個使用http協(xié)議的url來爬取，比如，換成http://www.csdn.net。結(jié)果，依然報錯，只不過變成了400錯誤。

然而，然而，然而。。。神轉(zhuǎn)折出現(xiàn)了?。?！
當(dāng)我把url換成http://www.csdn.net/后，請求成功！沒錯，就是在網(wǎng)址后面多加了一個斜杠/。同理，把http://www.baidu.com改成http://www.baidu.com/，請求也成功了！神奇?。?！

添加處理器

import urllib.request
import http.cookiejar

# 創(chuàng)建cookie容器
cj = http.cookiejar.CookieJar()
# 創(chuàng)建opener
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
# 給urllib.request安裝opener
urllib.request.install_opener(opener)

# 請求
request = urllib.request.Request("http://www.baidu.com/")
response = urllib.request.urlopen(request)
buff = response.read()
html = buff.decode("utf8")
print(html)
print(cj)

網(wǎng)頁解析器（BeautifulSoup）

從網(wǎng)頁中提取出有價值的數(shù)據(jù)和新的url列表。

解析器選擇

為了實(shí)現(xiàn)解析器，可以選擇使用正則表達(dá)式、html.parser、BeautifulSoup、lxml等，這里我們選擇BeautifulSoup。
其中，正則表達(dá)式基于模糊匹配，而另外三種則是基于DOM結(jié)構(gòu)化解析。

BeautifulSoup 安裝測試

1、安裝，在命令行下執(zhí)行pip install beautifulsoup4。
2、測試

import bs4
print(bs4)

使用說明

基本用法

1、創(chuàng)建BeautifulSoup對象

import bs4
from bs4 import BeautifulSoup

# 根據(jù)html網(wǎng)頁字符串創(chuàng)建BeautifulSoup對象
html_doc = """
The Dormouse"s story

The Dormouse"s story

Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.

...
"""
soup = BeautifulSoup(html_doc)
print(soup.prettify())

2、訪問節(jié)點(diǎn)

print(soup.title)
print(soup.title.name)
print(soup.title.string)
print(soup.title.parent.name)

print(soup.p)
print(soup.p["class"])

3、指定tag、class或id

print(soup.find_all("a"))
print(soup.find("a"))
print(soup.find(class_="title"))
print(soup.find(id="link3"))
print(soup.find("p",class_="title"))

4、從文檔中找到所有標(biāo)簽的鏈接

for link in soup.find_all("a"):
    print(link.get("href"))

出現(xiàn)了警告，根據(jù)提示，我們在創(chuàng)建BeautifulSoup對象時，指定解析器即可。

soup = BeautifulSoup(html_doc,"html.parser")

5、從文檔中獲取所有文字內(nèi)容

print(soup.get_text())

6、正則匹配

link_node = soup.find("a",href=re.compile(r"til"))
print(link_node)

后記

python爬蟲基礎(chǔ)知識，至此足夠，接下來，在實(shí)戰(zhàn)中學(xué)習(xí)更高級的知識。

書簽

Python開發(fā)簡單爬蟲
http://www.imooc.com/learn/563

The Python Standard Library
https://docs.python.org/3/lib...

Beautiful Soup 4.2.0 文檔
https://www.crummy.com/softwa...

為什么python適合寫爬蟲？
http://www.cnblogs.com/benzon...

如何學(xué)習(xí)Python爬蟲[入門篇]？
https://zhuanlan.zhihu.com/p/...

你需要這些：Python3.x爬蟲學(xué)習(xí)資料整理
https://zhuanlan.zhihu.com/p/...

如何入門 Python 爬蟲？
https://www.zhihu.com/questio...

Python3.X 抓取網(wǎng)絡(luò)資源
http://www.open-open.com/lib/...

python網(wǎng)絡(luò)請求和"HTTP Error 504:Fiddler - Receive Failure"
http://blog.csdn.net/guoguo52...

怎么使用Fiddler抓取自己寫的爬蟲的包？
https://www.zhihu.com/questio...

fiddler對python腳本抓取https包時發(fā)生了錯誤?
https://www.zhihu.com/questio...

HTTPS和HTTP的區(qū)別
http://blog.csdn.net/whatday/...

GPU云服務(wù)器云服務(wù)器 python爬蟲基礎(chǔ)入門 python爬蟲基礎(chǔ)知識零基礎(chǔ)學(xué)python爬蟲零基礎(chǔ)爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/38367.html

發(fā)表評論

登陸后可評論

0條評論

bang590

男|高級講師

我要關(guān)注我要私信

TA的文章

SSM實(shí)戰(zhàn)項目：人事管理系統(tǒng)（藍(lán)色版）【附源代碼】

閱讀 2633·2021-11-22 09:34
Centos8 部署 ElasticSearch 集群并搭建 ELK，基于Logstash同步MyS

閱讀 1029·2021-11-19 11:34
華為注資3億元加碼云計算領(lǐng)域_云資訊

閱讀 2859·2021-10-14 09:42
什么云主機(jī)便宜-國內(nèi)便宜的云主機(jī)哪些人用？

閱讀 1558·2021-09-22 15:27
（快）開學(xué)了，各大編程語言在群里吵翻了天！

閱讀 2428·2021-09-07 09:59
Vultr：裸金屬服務(wù)器，$0.275/H，1.9TB SSD/10T流量/10G帶寬，洛杉磯/日本

閱讀 1791·2021-08-27 13:13
前端培訓(xùn)-中級階段（8）- jQuery元素屬性樣式操作（2019-08-01期）

閱讀 3474·2019-08-30 11:21
vs code 插件折騰記（二）

閱讀 815·2019-08-29 18:35

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲基礎(chǔ)

相關(guān)文章

**零基礎(chǔ)如何學(xué)爬蟲技術(shù)**

Python爬蟲學(xué)習(xí)路線

**精通Python網(wǎng)絡(luò)爬蟲(0):網(wǎng)絡(luò)爬蟲學(xué)習(xí)路線**

python基礎(chǔ)爬蟲的框架以及詳細(xì)的運(yùn)行流程

**【小白+python+selenium庫+圖片爬取+反爬+資料】超詳細(xì)新手實(shí)現(xiàn)（01）webdriv**

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

發(fā)表評論

0條評論

bang590

男|高級講師

TA的文章

SSM實(shí)戰(zhàn)項目：人事管理系統(tǒng)（藍(lán)色版）【附源代碼】

Centos8 部署 ElasticSearch 集群并搭建 ELK，基于Logstash同步MyS

華為注資3億元加碼云計算領(lǐng)域_云資訊

什么云主機(jī)便宜-國內(nèi)便宜的云主機(jī)哪些人用？

（快）開學(xué)了，各大編程語言在群里吵翻了天！

Vultr：裸金屬服務(wù)器，$0.275/H，1.9TB SSD/10T流量/10G帶寬，洛杉磯/日本

前端培訓(xùn)-中級階段（8）- jQuery元素屬性樣式操作（2019-08-01期）

vs code 插件折騰記（二）

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Python爬蟲基礎(chǔ)

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！