python爬蟲——寫出最簡(jiǎn)單的網(wǎng)頁爬蟲

zilu 發(fā)布于2019-07-30 14:26 / 2157人閱讀

摘要：開發(fā)最簡(jiǎn)單的爬蟲簡(jiǎn)介開發(fā)最簡(jiǎn)單的爬蟲百度首頁簡(jiǎn)潔大方，很適合我們爬蟲。爬蟲代碼如下結(jié)果如下圖我們可以通過在百度首頁空白處右擊，查看審查元素來和我們的運(yùn)行結(jié)果對(duì)比。

知識(shí)就像碎布，記得“縫一縫”，你才能華麗麗地亮相

最近對(duì)python爬蟲有了強(qiáng)烈地興趣，在此分享自己的學(xué)習(xí)路徑，歡迎大家提出建議。我們相互交流，共同進(jìn)步。

1.開發(fā)工具

筆者使用的工具是sublime text3，它的短小精悍（可能男人們都不喜歡這個(gè)詞）使我十分著迷。推薦大家使用，當(dāng)然如果你的電腦配置不錯(cuò)，pycharm可能更加適合你。
sublime text3搭建python開發(fā)環(huán)境推薦查看此博客：
[sublime搭建python開發(fā)環(huán)境][http://www.cnblogs.com/codefish/p/4806849.html]

2.爬蟲介紹

爬蟲顧名思義，就是像蟲子一樣，爬在Internet這張大網(wǎng)上。如此，我們便可以獲取自己想要的東西。
既然要爬在Internet上，那么我們就需要了解URL，法號(hào)“統(tǒng)一資源定位器”，小名“鏈接”。其結(jié)構(gòu)主要由三部分組成：
（1）協(xié)議：如我們?cè)诰W(wǎng)址中常見的HTTP協(xié)議。
（2）域名或者IP地址：域名，如：www.baidu.com，IP地址，即將域名解析后對(duì)應(yīng)的IP。
（3）路徑：即目錄或者文件等。

3.urllib開發(fā)最簡(jiǎn)單的爬蟲 （1）urllib簡(jiǎn)介

Module	Introduce
urllib.error	Exception classes raised by urllib.request.
urllib.parse	Parse URLs into or assemble them from components.
urllib.request	Extensible library for opening URLs.
urllib.response	Response classes used by urllib.
urllib.robotparser	Load a robots.txt file and answer questions about fetchability of other URLs.

（2）開發(fā)最簡(jiǎn)單的爬蟲

百度首頁簡(jiǎn)潔大方，很適合我們爬蟲。
爬蟲代碼如下：

from urllib import request

def visit_baidu():
    URL = "http://www.baidu.com"
    # open the URL
    req = request.urlopen(URL)
    # read the URL 
    html = req.read()
    # decode the URL to utf-8
    html = html.decode("utf_8")
    print(html)

if __name__ == "__main__":
    visit_baidu()

結(jié)果如下圖：

我們可以通過在百度首頁空白處右擊，查看審查元素來和我們的運(yùn)行結(jié)果對(duì)比。
當(dāng)然，request也可以生成一個(gè)request對(duì)象，這個(gè)對(duì)象可以用urlopen方法打開。
代碼如下：

from urllib import request

def vists_baidu():
    # create a request obkect
    req = request.Request("http://www.baidu.com")
    # open the request object
    response = request.urlopen(req)
    # read the response 
    html = response.read()
    html = html.decode("utf-8")
    print(html)

if __name__ == "__main__":
    vists_baidu()

運(yùn)行結(jié)果和剛才相同。

（3）錯(cuò)誤處理

錯(cuò)誤處理通過urllib模塊來處理，主要有URLError和HTTPError錯(cuò)誤，其中HTTPError錯(cuò)誤是URLError錯(cuò)誤的子類，即HTTRPError也可以通過URLError捕獲。
HTTPError可以通過其code屬性來捕獲。
處理HTTPError的代碼如下：

from urllib import request
from urllib import error

def Err():
    url = "https://segmentfault.com/zzz"
    req = request.Request(url)

    try:
        response = request.urlopen(req)
        html = response.read().decode("utf-8")
        print(html)
    except error.HTTPError as e:
        print(e.code)
if __name__ == "__main__":
    Err()

運(yùn)行結(jié)果如圖：

404為打印出的錯(cuò)誤代碼，關(guān)于此詳細(xì)信息大家可以自行百度。

URLError可以通過其reason屬性來捕獲。
chuliHTTPError的代碼如下：

from urllib import request
from urllib import error

def Err():
    url = "https://segmentf.com/"
    req = request.Request(url)

    try:
        response = request.urlopen(req)
        html = response.read().decode("utf-8")
        print(html)
    except error.URLError as e:
        print(e.reason)
if __name__ == "__main__":
    Err()

運(yùn)行結(jié)果如圖：

既然為了處理錯(cuò)誤，那么最好兩個(gè)錯(cuò)誤都寫入代碼中，畢竟越細(xì)致越清晰。須注意的是，HTTPError是URLError的子類，所以一定要將HTTPError放在URLError的前面，否則都會(huì)輸出URLError的，如將404輸出為Not Found。
代碼如下：

from urllib import request
from urllib import error

# 第一種方法，URLErroe和HTTPError
def Err():
    url = "https://segmentfault.com/zzz"
    req = request.Request(url)

    try:
        response = request.urlopen(req)
        html = response.read().decode("utf-8")
        print(html)
    except error.HTTPError as e:
        print(e.code)
    except error.URLError as e:
        print(e.reason)

大家可以更改url來查看各種錯(cuò)誤的輸出形式。

新人初來乍到不容易，如果您覺得有那么一丟丟好的話，請(qǐng)不要吝嗇您的贊賞~撒花。

云服務(wù)器 GPU云服務(wù)器最簡(jiǎn)單的爬蟲 python簡(jiǎn)單的爬蟲簡(jiǎn)單的python爬蟲 python3簡(jiǎn)單的爬蟲

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/40704.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

zilu

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

怎么看tensorflow的版本

閱讀 1652·2023-04-25 16:29
LeetCode 677 鍵值映射[Map] HERODING的LeetCode之路

閱讀 959·2021-11-15 11:38
HostYun中秋88折：韓國VPS月付15.8元起,香港VPS月付17.6元起

閱讀 2299·2021-09-23 11:45
虛擬主機(jī)是什么-服務(wù)器與虛擬主機(jī)有什么區(qū)別？

閱讀 1427·2021-09-22 16:03
前端每日實(shí)戰(zhàn)：67# 視頻演示如何用純 CSS 創(chuàng)作單元素點(diǎn)陣 loader

閱讀 2542·2019-08-30 15:54
重學(xué)前端學(xué)習(xí)筆記（十二）--瀏覽器工作解析（二）

閱讀 1205·2019-08-30 10:53
前端每日實(shí)戰(zhàn)：24# 視頻演示如何用純 CSS 創(chuàng)作出平滑的層疊海浪特效

閱讀 2605·2019-08-29 15:24
實(shí)現(xiàn)前后端分離的心得

閱讀 1104·2019-08-26 12:25

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

python爬蟲——寫出最簡(jiǎn)單的網(wǎng)頁爬蟲

相關(guān)文章

Python

首次公開，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

爬蟲 - 收藏集 - 掘金

python

Python-爬蟲工程師-面試總結(jié)

發(fā)表評(píng)論

0條評(píng)論

zilu

男|高級(jí)講師

TA的文章

怎么看tensorflow的版本

LeetCode 677 鍵值映射[Map] HERODING的LeetCode之路

HostYun中秋88折：韓國VPS月付15.8元起,香港VPS月付17.6元起

虛擬主機(jī)是什么-服務(wù)器與虛擬主機(jī)有什么區(qū)別？

前端每日實(shí)戰(zhàn)：67# 視頻演示如何用純 CSS 創(chuàng)作單元素點(diǎn)陣 loader

重學(xué)前端學(xué)習(xí)筆記（十二）--瀏覽器工作解析（二）

前端每日實(shí)戰(zhàn)：24# 視頻演示如何用純 CSS 創(chuàng)作出平滑的層疊海浪特效

實(shí)現(xiàn)前后端分離的心得

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

python爬蟲——寫出最簡(jiǎn)單的網(wǎng)頁爬蟲

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！