摘要:下面跟大家詳細分享一下寫爬蟲抓取靜態(tài)網(wǎng)站的全過程。而我們上面說的元字符都代表一定的規(guī)則和占據(jù)一定的字符。
遇到的需求
前段時間需要快速做個靜態(tài)展示頁面,要求是響應式和較美觀。由于時間較短,自己動手寫的話也有點麻煩,所以就打算上網(wǎng)找現(xiàn)成的。
中途找到了幾個頁面發(fā)現(xiàn)不錯,然后就開始思考怎么把頁面給下載下來。
由于之前還沒有了解過爬蟲,自然也就沒有想到可以用爬蟲來抓取網(wǎng)頁內(nèi)容。所以我采取的辦法是:
打開chrome的控制臺,進入Application選項
找到Frames選項,找到html文件,再右鍵Save As...
手動創(chuàng)建本地的js/css/images目錄
依次打開Frames選項下的Images/Scripts/Stylesheets,一個文件就要右鍵Save As...
這個辦法是我當時能想到的最好辦法了。不過這種人為的辦法有以下缺點:
手工操作,麻煩費時
一不小心就忘記保存哪個文件
難以處理路徑之間的關系,比如一張圖片a.jpg, 它在html中的引用方式是images/banner/a.jpg,這樣我們以后還要手動去解決路徑依賴關系
然后剛好前段時間接觸了一點python,想到可以寫個python爬蟲來幫我自動抓取靜態(tài)網(wǎng)站。于是就馬上動手,參考相關資料等等。
下面跟大家詳細分享一下寫爬蟲抓取靜態(tài)網(wǎng)站的全過程。
前置知識儲備在下面的代碼實踐中,用到了python知識、正則表達式等等,核心技術是正則表達式。
我們來一一了解一下。
Python基礎知識如果你之前有過其他語言的學習經(jīng)歷,相信你可以很快上手python這門語言。具體學習可以上查看python官方文檔或者其他教程。
爬蟲的概念爬蟲,按照我的理解,其實是一段自動執(zhí)行的計算機程序,在web領域中,它存在的前提是模擬用戶在瀏覽器中的行為。
它的原理就是模擬用戶訪問web網(wǎng)頁,獲取網(wǎng)頁內(nèi)容,然后分析網(wǎng)頁內(nèi)容,找出我們感興趣的部分,并且最后處理數(shù)據(jù)。
流程圖是:
現(xiàn)在流行的爬蟲主流實現(xiàn)形式有以下幾種:
自己抓取網(wǎng)頁內(nèi)容,然后自己實現(xiàn)分析過程
用別人寫好的爬蟲框架,比如Scrapy
正則表達式 概念正則表達式是由一系列元字符和普通字符組成的字符串,它的作用是根據(jù)一定的規(guī)則來匹配文本,最終可以對文本做出一系列的處理。
元字符是正則表達式中的保留字符,它有特殊的匹配規(guī)則,比如*代表匹配0到無窮多次,普通字符就是普通的abcd等等。
比如在前端中,常見的一個操作就是判斷用戶的輸入是否為空,這時候我們可以先通過正則表達式來進行匹配,先過濾掉用戶輸入的兩邊空白值,具體實現(xiàn)如下:
function trim(value) { return value.replace(/^s+|s+$/g, "") } // 輸出 => "Python爬蟲" trim(" Python爬蟲 ");
下面我們一起來具體了解一下正則表達式中的元字符。
正則表達式中的元字符在上面,我們說過元字符是正則表達式中的保留字符,它有特殊的匹配規(guī)則,所以我們首先要了解經(jīng)常出現(xiàn)的元字符。
.代表匹配一個任意字符,除了 (換行符),比如可以匹配任意的字母數(shù)字等等
[...]表示字符組,里面可以有任意字符,它只會匹配當中的任意一個,比如[abc]可以匹配a或b或c,這里值得注意的是,字符組里面的元字符有時候會被當成是普通字符,比如[-*?]等等,它代表的僅僅是-或*或?,而不是-代表區(qū)間,*代表0到無窮次匹配,?代表0或1次匹配。
[^...]跟[...]的含義相反,它的意思是匹配一個不屬于[...]里面的字符,而不是不匹配[...]里面的字符,這兩種說法雖然細微但是有很大差別,前者規(guī)定一定要匹配一個字符,這個切記。
例子:[^123]可以匹配4/5/6等等,但是不匹配1/2/3
*代表匹配0次到無窮次,可以不匹配任何字符
+代表匹配1次到無窮次,至少匹配1次
?代表匹配0次或1次
{min, max}代表匹配min次到max次,如a{3, 5}表示a至少匹配3-5次
^代表匹配字符串開頭,如^a表示a要出現(xiàn)在字符串開頭,bcd則不匹配
$代表匹配字符串結尾, 如A$表示A要出現(xiàn)在字符串結尾,ABAB則不匹配
|代表一個范圍,可以匹配任意的子表達式,比如abc|def可以匹配abc或者def,不匹配abd
(...)代表分組,它的作用有界定子表達式的范圍和與提供功能的元字符相結合,比如(abc|def)+代表可以匹配1次或1次以上的abc或者defdef,如abcabcabc,def
i代表反向引用,i可以為1/2/3等整數(shù),它的含義是指向上一個()里面匹配的內(nèi)容。比如匹配(abc)+(12)*12,如果匹配成功的話,1的內(nèi)容是abc,2的內(nèi)容是12或者空。反向引用通常用在匹配""或者""中
環(huán)視我理解的環(huán)視是界定當前匹配子表達式的左邊文本和右邊文本出現(xiàn)的情況,環(huán)視本身不會占據(jù)匹配的字符,它是當前子表達式的匹配規(guī)則但是本身不算進匹配文本。而我們上面說的元字符都代表一定的規(guī)則和占據(jù)一定的字符。環(huán)視可分為四種:肯定順序環(huán)視、否定順序環(huán)視、肯定逆序環(huán)視和否定逆序環(huán)視。它們的工作流程如下:
肯定順序環(huán)視:先找到環(huán)視中的文本在右側出現(xiàn)的初始位置,然后從匹配到的右側文本的最左的位置開始匹配字符
否定順序環(huán)視:先找到環(huán)視中的文本在右側沒有出現(xiàn)的初始位置,然后從匹配到的右側文本的最左的位置開始匹配字符
肯定逆序環(huán)視:先找到環(huán)視中的文本在左側出現(xiàn)的初始位置,然后從匹配到的左側文本的最右的位置開始匹配字符
否定逆序環(huán)視:先找到環(huán)視中的文本在左側沒有出現(xiàn)的初始位置,然后從匹配到的左側文本的最右的位置開始匹配字符
肯定順序環(huán)視匹配成功的條件是當前的子表達式能夠匹配右側文本,它的寫法是(?=...),...代表要環(huán)視的內(nèi)容。比如正則表達式(?=hello)he的意思是匹配包含hello的文本,它只匹配位置,不匹配具體字符,匹配到位置之后,才真正匹配要占用的字符是he,所以后面可以具體匹配llo等。
對于(?=hello)he而言,hello world可以匹配成功,而hell world則匹配失敗。具體代碼如下:
import re reg1 = r"(?=hello)he" print(re.search(reg1, "hello world")) print(re.search(reg1, "hell world hello")) print(re.search(reg1, "hell world")) # 輸出結果 <_sre.SRE_Match object; span=(0, 2), match="he"> <_sre.SRE_Match object; span=(11, 13), match="he"> None
否定順序環(huán)視匹配成功的條件是當前的子表達式不能匹配右側文本,它的寫法是(?!...),...代表要環(huán)視的內(nèi)容,還是上面的例子,比如正則表達式(?!hello)he的意思是匹配不是hello的文本,找到位置,然后匹配he。
例子如下:
import re reg2 = r"(?!hello)he" print(re.search(reg2, "hello world")) print(re.search(reg2, "hell world hello")) print(re.search(reg2, "hell world")) # 輸出結果 None <_sre.SRE_Match object; span=(0, 2), match="he"> <_sre.SRE_Match object; span=(0, 2), match="he">
肯定逆序環(huán)視匹配成功的條件是當前的子表達式能夠匹配左側文本,它的寫法是(?<=...),...代表要環(huán)視的內(nèi)容,比如正則表達式(?<=hello)-python的意思是匹配包含-python的子表達式,并且它的左側必須出現(xiàn)hello,hello只匹配位置,不匹配具體字符,真正占用的字符是后面的-python。
例子如下:
import re reg3 = r"(?<=hello)-python" print(re.search(reg3, "hello-python")) print(re.search(reg3, "hell-python hello-python")) print(re.search(reg3, "hell-python")) # 輸出結果 <_sre.SRE_Match object; span=(5, 12), match="-python"> <_sre.SRE_Match object; span=(17, 24), match="-python"> None
否定逆序環(huán)視匹配成功的條件是當前的子表達式不能匹配左側文本,它的寫法是(?,...代表要環(huán)視的內(nèi)容,比如正則表達式(?的意思是匹配包含-python的子表達式,并且它的左側必須不能出現(xiàn)hello。
例子如下:
import re reg4 = r"(? <_sre.SRE_Match object; span=(4, 11), match="-python">
環(huán)視在對字符串插入某些字符很有效,你可以利用它來匹配位置,然后插入對應的字符,而不需要對原來的文本進行替換。
捕獲分組在正則表達式中,分組可以幫助我們提取出想要的特定信息。
指明分組很簡單,只需要在想捕獲的表達式中兩端加上()就可以了。在python中,我們可以用re.search(reg, xx).groups()來獲取到所有的分組。
默認的()中都指明了一個分組,分組序號為i,i從1開始,分別用re.search(reg, xx).group(i)來獲取。
如果不想捕獲分組可以使用(?:...)來指明。
具體例子如下:
import re reg7 = r"hello,([a-zA-Z0-9]+)" print(re.search(reg7, "hello,world").groups()) print(re.search(reg7, "hello,world").group(1)) print(re.search(reg7, "hello,python").groups()) print(re.search(reg7, "hello,python").group(1)) # 輸出結果 ("world",) world ("python",) python貪婪匹配
貪婪匹配是指正則表達式盡可能匹配多的字符,也就是趨于最大長度匹配。
正則表達式默認是貪婪模式。
例子如下:
import re reg5 = r"hello.*world" print(re.search(reg5, "hello world,hello python,hello world,hello javascript")) # 輸出結果 <_sre.SRE_Match object; span=(0, 36), match="hello world,hello python,hello world">
由上可以看到它匹配的是hello world,hello python,hello world而不是剛開始的hello world。那如果我們只是想匹配剛開始的hello world,這時候我們可以利用正則表達式的非貪婪模式。
非貪婪匹配正好與貪婪匹配相反,它是指盡可能匹配少的字符,只要匹配到了就結束。要使用貪婪模式,僅需要在量詞后面加上一個問號(?)就可以。
還是剛剛那個例子:
import re reg5 = r"hello.*world" reg6 = r"hello.*?world" print(re.search(reg5, "hello world,hello python,hello world,hello javascript")) print(re.search(reg6, "hello world,hello python,hello world,hello javascript")) # 輸出結果 <_sre.SRE_Match object; span=(0, 36), match="hello world,hello python,hello world"> <_sre.SRE_Match object; span=(0, 11), match="hello world">
由上可以看到這是我們剛剛想要匹配的效果。
進入開發(fā)有了上面的基礎知識,我們就可以進入開發(fā)環(huán)節(jié)了。
我們想實現(xiàn)的最終效果本次我們的最終目的是寫一個簡單的python爬蟲,這個爬蟲能夠下載一個靜態(tài)網(wǎng)頁,并且在保持網(wǎng)頁引用資源的相對路徑下下載它的靜態(tài)資源(如js/css/images)。測試網(wǎng)站為http://www.peersafe.cn/index.html,效果圖如下:
開發(fā)流程我們的總體思路是先獲取到網(wǎng)頁的內(nèi)容,然后利用正則表達式來提取我們想要的資源鏈接,最后就是下載資源。
獲取網(wǎng)頁內(nèi)容我們選用python3自帶的urllib.http來發(fā)出http請求,或者你可以采用第三方請求庫requests。
獲取內(nèi)容的部分代碼如下:
url = "http://www.peersafe.cn/index.html" # 讀取網(wǎng)頁內(nèi)容 webPage = urllib.request.urlopen(url) data = webPage.read() content = data.decode("UTF-8") print("> 網(wǎng)站內(nèi)容抓取完畢,內(nèi)容長度:", len(content))
獲取到內(nèi)容之后,我們需要把它保存下來,也就是寫到本地磁盤上。我們定義一個SAVE_PATH路徑,代表專門放置爬蟲下載的文件。
# python-spider-downloads是我們要放置的目錄 # 這里推薦使用os模塊來獲取當前的目錄或者拼接路徑 # 不推薦直接使用"F://xxx" + "http://python-spider-downloads"等方式 SAVE_PATH = os.path.join(os.path.abspath("."), "python-spider-downloads")
接下來就是為這個站點創(chuàng)建一個多帶帶的文件夾了。這個站點文件夾的格式是xxxx-xx-xx-domain,比如2018-08-03-www.peersafe.cn。在此之前,我們需要寫一個函數(shù)來提取出一個url鏈接的域名、相對路徑、請求文件名和請求參數(shù)等等,這個在后續(xù)在根據(jù)資源文件的引用方式創(chuàng)建相對應的文件夾時也會用到。
比如輸入http://www.peersafe.cn/index.html,那么將會輸出:
{"baseUrl": "http://www.peersafe.cn", "fullPath": "http://www.peersafe.cn/", "protocol": "http://", "domain ": "www.peersafe.cn", "path": "/", "fileName": "index.html", "ext": "html", "params": ""}
部分代碼如下:
REG_URL = r"^(https?://|//)?((?:[a-zA-Z0-9-_]+.)+(?:[a-zA-Z0-9-_:]+))((?:/[-_.a-zA-Z0-9]*?)*)((?<=/)[-a-zA-Z0-9]+(?:.([a-zA-Z0-9]+))+)?((?:?[a-zA-Z0-9%&=]*)*)$" regUrl = re.compile(REG_URL) # ... """ 解析URL地址 """ def parseUrl(url): if not url: return res = regUrl.search(url) # 在這里,我們把192.168.1.109:8080的形式也解析成域名domain,實際過程中www.baidu.com等才是域名,192.168.1.109只是IP地址 # ("http://", "192.168.1.109:8080", "/abc/images/111/", "index.html", "html", "?a=1&b=2") if res is not None: path = res.group(3) fullPath = res.group(1) + res.group(2) + res.group(3) if not path.endswith("/"): path = path + "/" fullPath = fullPath + "/" return dict( baseUrl=res.group(1) + res.group(2), fullPath=fullPath, protocol=res.group(1), domain=res.group(2), path=path, fileName=res.group(4), ext=res.group(5), params=res.group(6) ) """ 解析路徑 eg: basePath => F:Programspythonpython-spider-downloads resourcePath => /a/b/c/ or a/b/c return => F:Programspythonpython-spider-downloadsac """ def resolvePath(basePath, resourcePath): # 解析資源路徑 res = resourcePath.split("/") # 去掉空目錄 /a/b/c/ => [a, b, c] dirList = list(filter(lambda x: x, res)) # 目錄不為空 if dirList: # 拼接出絕對路徑 resourcePath = reduce(lambda x, y: os.path.join(x, y), dirList) dirStr = os.path.join(basePath, resourcePath) else: dirStr = basePath return dirStr
上面的正則表達式REG_URL有點長,這個正則表達式能解析目前我遇到的各種url形式,如果有不能解析的,你可以自行補充,我測試過的url列表可以去我的github中查看。
首先一個最復雜的url鏈接(比如"http://192.168.1.109:8080/abc/images/111/index.html?a=1&b=2")來說,我們想分別提取出http://, 192.168.1.109:8080, /abc/images/111/, index.html, ?a=1&b=2。提取出/abc/images/111/的目的是為以后創(chuàng)建目錄做準備,index.html是寫入網(wǎng)頁內(nèi)容的名字。
有需要的可以深入研究一下REG_URL的寫法,如果有更好的或者看不懂的,我們可以一起探討。
有了parseUrl函數(shù)之后,我們就可以把剛剛獲取網(wǎng)頁內(nèi)容和寫入文件聯(lián)系起來了,代碼如下:
# 首先創(chuàng)建這個站點的文件夾 urlDict = parseUrl(url) print("分析的域名:", urlDict) domain = urlDict["domain"] filePath = time.strftime("%Y-%m-%d", time.localtime()) + "-" + domain # 如果是192.168.1.1:8000等形式,變成192.168.1.1-8000,:不可以出現(xiàn)在文件名中 filePath = re.sub(r":", "-", filePath) SAVE_PATH = os.path.join(SAVE_PATH, filePath) # 讀取網(wǎng)頁內(nèi)容 webPage = urllib.request.urlopen(url) data = webPage.read() content = data.decode("UTF-8") print("> 網(wǎng)站內(nèi)容抓取完畢,內(nèi)容長度:", len(content)) # 把網(wǎng)站的內(nèi)容寫下來 pageName = "" if urlDict["fileName"] is None: pageName = "index.html" else: pageName = urlDict["fileName"] pageIndexDir = resolvePath(SAVE_PATH, urlDict["path"]) if not os.path.exists(pageIndexDir): os.makedirs(pageIndexDir) pageIndexPath = os.path.join(pageIndexDir, pageName) print("主頁的地址:", pageIndexPath) f = open(pageIndexPath, "wb") f.write(data) f.close()提取有用的資源鏈接
我們想要的資源是圖片資源,js文件、css文件和字體文件。如果我們要對網(wǎng)頁內(nèi)容一一進行解析,利用分組,來捕獲出我們想要的鏈接形式,比如images/1.png和scripts/lib/jquery.min.js。
代碼如下:
REG_RESOURCE_TYPE = r"(?:href|src|data-original|data-src)=[""](.+?.(?:js|css|jpg|jpeg|png|gif|svg|ico|ttf|woff2))[a-zA-Z0-9?=.]*[""]" # re.S代表開啟多行匹配模式 regResouce = re.compile(REG_RESOURCE_TYPE, re.S) # ... # 解析網(wǎng)頁內(nèi)容,獲取有效的鏈接 # content是上一步讀取到的網(wǎng)頁內(nèi)容 contentList = re.split(r"s+", content) resourceList = [] for line in contentList: resList = regResouce.findall(line) if resList is not None: resourceList = resourceList + resList下載資源
在解析出資源鏈接后,我們要針對每一個資源鏈接進行檢查,把它變成符合http請求的url格式,比如把images/1.png加上http頭和剛剛的domain,也就是http://domain/images/1.png。
下面是對資源鏈接進行處理的代碼:
# ./static/js/index.js # /static/js/index.js # static/js/index.js # //abc.cc/static/js # http://www.baidu/com/static/index.js if resourceUrl.startswith("./"): resourceUrl = urlDict["fullPath"] + resourceUrl[1:] elif resourceUrl.startswith("http://"): resourceUrl = "https:" + resourceUrl elif resourceUrl.startswith("/"): resourceUrl = urlDict["baseUrl"] + resourceUrl elif resourceUrl.startswith("http") or resourceUrl.startswith("https"): # 不處理,這是我們想要的url格式 pass elif not (resourceUrl.startswith("http") or resourceUrl.startswith("https")): # static/js/index.js這種情況 resourceUrl = urlDict["fullPath"] + resourceUrl else: print("> 未知resource url: %s" % resourceUrl)
接著就是對每個規(guī)范的資源鏈接進行解析(parseUrl),提取出它要存放的目錄和文件名等等,然后創(chuàng)建對應的目錄。
在這里,我也處理了引用的其他網(wǎng)站的資源。
# 解析文件,查看文件路徑 resourceUrlDict = parseUrl(resourceUrl) if resourceUrlDict is None: print("> 解析文件出錯:%s" % resourceUrl) continue resourceDomain = resourceUrlDict["domain"] resourcePath = resourceUrlDict["path"] resourceName = resourceUrlDict["fileName"] if resourceDomain != domain: print("> 該資源不是本網(wǎng)站的,也下載:", resourceDomain) # 如果下載的話,根目錄就要變了 # 再創(chuàng)建一個目錄,用于保存其他地方的資源 resourceDomain = re.sub(r":", "-", resourceDomain) savePath = os.path.join(SAVE_PATH, resourceDomain) if not os.path.exists(SAVE_PATH): print("> 目標目錄不存在,創(chuàng)建:", savePath) os.makedirs(savePath) # continue else: savePath = SAVE_PATH # 解析資源路徑 dirStr = resolvePath(savePath, resourcePath) if not os.path.exists(dirStr): print("> 目標目錄不存在,創(chuàng)建:", dirStr) os.makedirs(dirStr) # 寫入文件 downloadFile(resourceUrl, os.path.join(dirStr, resourceName))
下載的函數(shù)downloadFile的代碼是:
""" 下載文件 """ def downloadFile(srcPath, distPath): global downloadedList if distPath in downloadedList: return try: response = urllib.request.urlopen(srcPath) if response is None or response.status != 200: return print("> 請求異常:", srcPath) data = response.read() f = open(distPath, "wb") f.write(data) f.close() downloadedList.append(distPath) # print(">>>: " + srcPath + ":下載成功") except Exception as e: print("報錯了:", e)
以上就是我們的開發(fā)全過程。
知識總結 本次開發(fā)用到的技術利用urllib.http來發(fā)網(wǎng)絡請求
利用正則表達式來解析資源鏈接
利用os系統(tǒng)模塊來處理文件路徑問題
心得體會這篇文章也算是我這段時間學習python的一個實踐總結,順便記錄下正則表達式的知識。同時我也希望能夠幫助到那些想學習正則表達式和爬蟲的小伙伴。
該python爬蟲的源代碼已經(jīng)放在我的github上,有興趣的小伙伴可以上去看看,滿意的可以順便給個Star,感謝支持。
文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/42119.html
摘要:以下這些項目,你拿來學習學習練練手。當你每個步驟都能做到很優(yōu)秀的時候,你應該考慮如何組合這四個步驟,使你的爬蟲達到效率最高,也就是所謂的爬蟲策略問題,爬蟲策略學習不是一朝一夕的事情,建議多看看一些比較優(yōu)秀的爬蟲的設計方案,比如說。 (一)如何學習Python 學習Python大致可以分為以下幾個階段: 1.剛上手的時候肯定是先過一遍Python最基本的知識,比如說:變量、數(shù)據(jù)結構、語法...
從行業(yè)角度來說,通過一步一步剖析,目標就是簡易,新手入門requests網(wǎng)絡爬蟲及新手入門pandas數(shù)據(jù)剖析就能完成,文中關鍵為大家介紹Python網(wǎng)絡爬蟲抓取金融衍生品數(shù)據(jù)庫的經(jīng)典案例,感興趣的小伙伴一起了解一下吧 哈嘍大家好政胤今日教給大家抓取金融衍生品數(shù)據(jù)和信息 每日任務介紹 最先,顧客原消費是獲得https://hq.smm.cn/copper網(wǎng)站里的價錢數(shù)據(jù)和信息(注:獲得的...
摘要:在這之前,還是有必要對一些概念超輕量級反爬蟲方案后端掘金前言爬蟲和反爬蟲日益成為每家公司的標配系統(tǒng)。 爬蟲修煉之道——從網(wǎng)頁中提取結構化數(shù)據(jù)并保存(以爬取糗百文本板塊所有糗事為例) - 后端 - 掘金歡迎大家關注我的專題:爬蟲修煉之道 上篇 爬蟲修煉之道——編寫一個爬取多頁面的網(wǎng)絡爬蟲主要講解了如何使用python編寫一個可以下載多頁面的爬蟲,如何將相對URL轉為絕對URL,如何限速,...
閱讀 1114·2021-10-14 09:43
閱讀 1162·2021-10-11 11:07
閱讀 3118·2021-08-18 10:23
閱讀 1498·2019-08-29 16:18
閱讀 1013·2019-08-28 18:21
閱讀 1484·2019-08-26 12:12
閱讀 3771·2019-08-26 10:11
閱讀 2513·2019-08-23 18:04