Python3之正則表達(dá)式詳解

phpmatt 發(fā)布于2019-07-31 11:31 / 2392人閱讀

摘要：匹配個(gè)或個(gè)由前面的正則表達(dá)式定義的片段，非貪婪方式精確匹配個(gè)前面表達(dá)式。所以接著上面的例子，我們可以改寫(xiě)一下正則表達(dá)式。因此，我們可以在使用來(lái)簡(jiǎn)化正則表達(dá)式的書(shū)寫(xiě)。

作者：畢來(lái)生
微信：878799579

正則表達(dá)式
本節(jié)我們看一下正則表達(dá)式的相關(guān)用法，正則表達(dá)式是處理字符串的強(qiáng)大的工具，它有自己特定的語(yǔ)法結(jié)構(gòu)，有了它，實(shí)現(xiàn)字符串的檢索、替換、匹配驗(yàn)證都不在話下。

當(dāng)然對(duì)于爬蟲(chóng)來(lái)說(shuō)，有了它，我們從HTML里面提取我們想要的信息就非常方便了。

實(shí)例引入
說(shuō)了這么多，可能我們對(duì)它到底是個(gè)什么還是比較模糊，下面我們就用幾個(gè)實(shí)例來(lái)感受一下正則表達(dá)式的用法。

我們打開(kāi)開(kāi)源中國(guó)提供的正則表達(dá)式測(cè)試工具h(yuǎn)ttp://tool.oschina.net/regex/，打開(kāi)之后我們可以輸入待匹配的文本，然后選擇常用的正則表達(dá)式，就可以從我們輸入的文本中得出相應(yīng)的匹配結(jié)果了。

例如我們?cè)谶@里輸入待匹配的文本如下：

Hello, my phone number is 010-86432100 and email is [email protected], and my website is http://cuiqingcai.com.
這段字符串中包含了一個(gè)電話號(hào)碼和一個(gè)電子郵件，接下來(lái)我們就嘗試用正則表達(dá)式提取出來(lái)。

我們?cè)诰W(wǎng)頁(yè)中選擇匹配Email地址，就可以看到在下方出現(xiàn)了文本中的Email。如果我們選擇了匹配網(wǎng)址URL，就可以看到在下方出現(xiàn)了文本中的URL。是不是非常神奇？

其實(shí)，在這里就是用了正則表達(dá)式匹配，也就是用了一定的規(guī)則將特定的文本提取出來(lái)。比如電子郵件它開(kāi)頭是一段字符串，然后是一個(gè)@符號(hào)，然后就是某個(gè)域名，這是有特定的組成格式的。另外對(duì)于URL，開(kāi)頭是協(xié)議類(lèi)型，然后是冒號(hào)加雙斜線，然后是域名加路徑。

對(duì)于URL來(lái)說(shuō)，我們就可以用下面的正則表達(dá)式匹配：

[a-zA-z]+://¹*
如果我們用這個(gè)正則表達(dá)式去匹配一個(gè)字符串，如果這個(gè)字符串中包含類(lèi)似URL的文本，那就會(huì)被提取出來(lái)。

這個(gè)正則表達(dá)式看上去是亂糟糟的一團(tuán)，其實(shí)不然，這里面都是有特定的語(yǔ)法規(guī)則的。比如a-z代表匹配任意的小寫(xiě)字母，s表示匹配任意的空白字符，*就代表匹配前面的字符任意多個(gè)，這一長(zhǎng)串的正則表達(dá)式就是這么多匹配規(guī)則的組合，最后實(shí)現(xiàn)特定的匹配功能。

寫(xiě)好正則表達(dá)式后，我們就可以拿它去一個(gè)長(zhǎng)字符串里匹配查找了，不論這個(gè)字符串里面有什么，只要符合我們寫(xiě)的規(guī)則，統(tǒng)統(tǒng)可以找出來(lái)。那么對(duì)于網(wǎng)頁(yè)來(lái)說(shuō)，如果我們想找出網(wǎng)頁(yè)源代碼里有多少URL，就可以用匹配URL的正則表達(dá)式去匹配，就可以得到源碼中的URL了。

在上面我們說(shuō)了幾個(gè)匹配規(guī)則，那么正則表達(dá)式的規(guī)則到底有多少？那么在這里把常用的匹配規(guī)則總結(jié)一下：

模式描述
w匹配字母數(shù)字及下劃線
W匹配非字母數(shù)字及下劃線
s匹配任意空白字符，等價(jià)于 [tnrf].
S匹配任意非空字符
d匹配任意數(shù)字，等價(jià)于 [0-9]
D匹配任意非數(shù)字
A匹配字符串開(kāi)始
Z匹配字符串結(jié)束，如果是存在換行，只匹配到換行前的結(jié)束字符串
z匹配字符串結(jié)束
G匹配最后匹配完成的位置
n匹配一個(gè)換行符
t匹配一個(gè)制表符
^匹配字符串的開(kāi)頭
$匹配字符串的末尾。
.匹配任意字符，除了換行符，當(dāng)re.DOTALL標(biāo)記被指定時(shí)，則可以匹配包括換行符的任意字符。
[...]用來(lái)表示一組字符,多帶帶列出：[amk] 匹配 "a"，"m"或"k"
²不在[]中的字符：³ 匹配除了a,b,c之外的字符。
*匹配0個(gè)或多個(gè)的表達(dá)式。
+匹配1個(gè)或多個(gè)的表達(dá)式。
?匹配0個(gè)或1個(gè)由前面的正則表達(dá)式定義的片段，非貪婪方式
{n}精確匹配n個(gè)前面表達(dá)式。
{n, m}匹配 n 到 m 次由前面的正則表達(dá)式定義的片段，貪婪方式
a|b匹配a或b
( )匹配括號(hào)內(nèi)的表達(dá)式，也表示一個(gè)組

可能完了之后就有點(diǎn)暈暈的了把，不用擔(dān)心，下面我們會(huì)詳細(xì)講解下一些常見(jiàn)的規(guī)則的用法。怎么用它來(lái)從網(wǎng)頁(yè)中提取我們想要的信息。

Python中使用
其實(shí)正則表達(dá)式不是Python獨(dú)有的，它在其他編程語(yǔ)言中也可以使用，但是Python的re庫(kù)提供了整個(gè)正則表達(dá)式的實(shí)現(xiàn)，利用re庫(kù)我們就可以在Python中使用正則表達(dá)式來(lái)，在Python中寫(xiě)正則表達(dá)式幾乎都是用的這個(gè)庫(kù)。

下面我們就來(lái)了解下它的用法。

match()
在這里首先介紹第一個(gè)常用的匹配方法，match()方法，我們向這個(gè)方法傳入要匹配的字符串以及正則表達(dá)式，就可以來(lái)檢測(cè)這個(gè)正則表達(dá)式是否匹配字符串了。

match()方法會(huì)嘗試從字符串的起始位置匹配正則表達(dá)式，如果匹配，就返回匹配成功的結(jié)果，如果不匹配，那就返回None。

我們用一個(gè)實(shí)例來(lái)感受一下：

import re

content = "Hello 123 4567 World_This is a Regex Demo"
print(len(content))
result = re.match("^Hellosffffdsd{4}sw{10}", content)
print(result)
print(result.group())
print(result.span())

運(yùn)行結(jié)果：

41
<_sre.SRE_Match object; span=(0, 25), match="Hello 123 4567 World_This">
Hello 123 4567 World_This
(0, 25)

在這里我們首先聲明了一個(gè)字符串，包含英文字母、空白字符、數(shù)字等等內(nèi)容，接下來(lái)我們寫(xiě)了一個(gè)正則表達(dá)式^Hellosffffdsd{4}sw{10}來(lái)匹配這個(gè)長(zhǎng)字符串。

開(kāi)頭的^是匹配字符串的開(kāi)頭，也就是以Hello開(kāi)頭，然后s匹配空白字符，用來(lái)匹配目標(biāo)字符串的空格，d匹配數(shù)字，三個(gè)d匹配123，然后再寫(xiě)一個(gè)s匹配空格，后面還有4567，我們其實(shí)可以依然用四個(gè)d來(lái)匹配，但是這么寫(xiě)起來(lái)比較繁瑣，所以在后面可以跟{4}代表匹配前面的字符四次，也就是匹配四個(gè)數(shù)字，這樣也可以完成匹配，然后后面再緊接一個(gè)空白字符，然后w{10}匹配10個(gè)字母及下劃線，正則表達(dá)式到此為止就結(jié)束了，我們注意到其實(shí)并沒(méi)有把目標(biāo)字符串匹配完，不過(guò)這樣依然可以進(jìn)行匹配，只不過(guò)匹配結(jié)果短一點(diǎn)而已。

我們調(diào)用match()方法，第一個(gè)參數(shù)傳入了正則表達(dá)式，第二個(gè)參數(shù)傳入了要匹配的字符串。

打印輸出一下結(jié)果，可以看到結(jié)果是SRE_Match對(duì)象，證明成功匹配，它有兩個(gè)方法，group()方法可以輸出匹配到的內(nèi)容，結(jié)果是Hello 123 4567 World_This，這恰好是我們正則表達(dá)式規(guī)則所匹配的內(nèi)容，span()方法可以輸出匹配的范圍，結(jié)果是(0, 25)，這個(gè)就是匹配到的結(jié)果字符串在原字符串中的位置范圍。

通過(guò)上面的例子我們可以基本了解怎樣在Python中怎樣使用正則表達(dá)式來(lái)匹配一段文字。

匹配目標(biāo)

剛才我們用了match()方法可以得到匹配到的字符串內(nèi)容，但是如果我們想從字符串中提取一部分內(nèi)容怎么辦呢？就像最前面的實(shí)例一樣，從一段文本中提取出郵件或電話號(hào)等內(nèi)容。

在這里可以使用()括號(hào)來(lái)將我們想提取的子字符串括起來(lái)，()實(shí)際上就是標(biāo)記了一個(gè)子表達(dá)式的開(kāi)始和結(jié)束位置，被標(biāo)記的每個(gè)子表達(dá)式會(huì)依次對(duì)應(yīng)每一個(gè)分組，我們可以調(diào)用group()方法傳入分組的索引即可獲取提取的結(jié)果。

下面我們用一個(gè)實(shí)例感受一下：

import re

content = "Hello 1234567 World_This is a Regex Demo"
result = re.match("^Hellos(d+)sWorld", content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

依然是前面的字符串，在這里我們想匹配這個(gè)字符串并且把其中的1234567提取出來(lái)，在這里我們將數(shù)字部分的正則表達(dá)式用()括起來(lái)，然后接下來(lái)調(diào)用了group(1)獲取匹配結(jié)果。

運(yùn)行結(jié)果如下：

<_sre.SRE_Match object; span=(0, 19), match="Hello 1234567 World">
Hello 1234567 World
1234567
(0, 19)

可以看到在結(jié)果中成功得到了1234567，我們獲取用的是group(1)，與group()有所不同，group()會(huì)輸出完整的匹配結(jié)果，而group(1)會(huì)輸出第一個(gè)被()包圍的匹配結(jié)果，假如正則表達(dá)式后面還有()包括的內(nèi)容，那么我們可以依次用group(2)、group(3)等來(lái)依次獲取。

通用匹配

剛才我們寫(xiě)的正則表達(dá)式其實(shí)比較復(fù)雜，出現(xiàn)空白字符我們就寫(xiě)s匹配空白字符，出現(xiàn)數(shù)字我們就寫(xiě)d匹配數(shù)字，工作量非常大，其實(shí)完全沒(méi)必要這么做，還有一個(gè)萬(wàn)能匹配可以用，也就是.，.可以匹配任意字符(除換行符)，又代表匹配前面的字符無(wú)限次，所以它們組合在一起就可以匹配任意的字符了，有了它我們就不用挨個(gè)字符地匹配了。

所以接著上面的例子，我們可以改寫(xiě)一下正則表達(dá)式。

import re

content = "Hello 123 4567 World_This is a Regex Demo"
result = re.match("^Hello.*Demo$", content)
print(result)
print(result.group())
print(result.span())

在這里我們將中間的部分直接省略，全部用.*來(lái)代替，最后加一個(gè)結(jié)尾字符串就好了，運(yùn)行結(jié)果如下：

<_sre.SRE_Match object; span=(0, 41), match="Hello 123 4567 World_This is a Regex Demo">
Hello 123 4567 World_This is a Regex Demo
(0, 41)

可以看到group()方法輸出了匹配的全部字符串，也就是說(shuō)我們寫(xiě)的正則表達(dá)式匹配到了目標(biāo)字符串的全部?jī)?nèi)容，span()方法輸出(0, 41)，是整個(gè)字符串的長(zhǎng)度。

因此，我們可以在使用.*來(lái)簡(jiǎn)化正則表達(dá)式的書(shū)寫(xiě)。

貪婪匹配與非貪婪匹配

在使用上面的通用匹配.*的時(shí)候可能我們有時(shí)候匹配到的并不是想要的結(jié)果，我們看下面的例子：

import re

content = "Hello 1234567 World_This is a Regex Demo"
result = re.match("^He.*(d+).*Demo$", content)
print(result)
print(result.group(1))

在這里我們依然是想獲取中間的數(shù)字，所以中間我們依然寫(xiě)的是(d+)，數(shù)字兩側(cè)由于內(nèi)容比較雜亂，所以?xún)蓚?cè)我們想省略來(lái)寫(xiě)，都寫(xiě).，最后組成^He.(d+).*Demo$，看樣子并沒(méi)有什么問(wèn)題，我們看下運(yùn)行結(jié)果：

<_sre.SRE_Match object; span=(0, 40), match="Hello 1234567 World_This is a Regex Demo">
7
奇怪的事情發(fā)生了，我們只得到了7這個(gè)數(shù)字，這是怎么回事？

這里就涉及一個(gè)貪婪匹配與非貪婪匹配的原因了，貪婪匹配下，.會(huì)匹配盡可能多的字符，我們的正則表達(dá)式中.后面是d+，也就是至少一個(gè)數(shù)字，并沒(méi)有指定具體多少個(gè)數(shù)字，所以.*就盡可能匹配多的字符，所以它把123456也匹配了，給d+留下一個(gè)可滿(mǎn)足條件的數(shù)字7，所以d+得到的內(nèi)容就只有數(shù)字7了。

但這樣很明顯會(huì)給我們的匹配帶來(lái)很大的不便，有時(shí)候匹配結(jié)果會(huì)莫名其妙少了一部分內(nèi)容。其實(shí)這里我們只需要使用非貪婪匹配匹配就好了，非貪婪匹配的寫(xiě)法是.*?，多了一個(gè)?，那么它可以達(dá)到怎樣的效果？我們?cè)儆靡粋€(gè)實(shí)例感受一下：

import re

content = "Hello 1234567 World_This is a Regex Demo"
result = re.match("^He.*?(d+).*Demo$", content)
print(result)
print(result.group(1))

在這里我們只是將第一個(gè).改成了.?，轉(zhuǎn)變?yōu)榉秦澙菲ヅ淦ヅ?。結(jié)果如下：

<_sre.SRE_Match object; span=(0, 40), match="Hello 1234567 World_This is a Regex Demo">
1234567

很好，這下我們就可以成功獲取1234567了。原因可想而知，貪婪匹配是盡可能匹配多的字符，非貪婪匹配就是盡可能匹配少的字符，.?之后是d+用來(lái)匹配數(shù)字，當(dāng).?匹配到Hello后面的空白字符的時(shí)候，再往后的字符就是數(shù)字了，而d+恰好可以匹配，那么這里.?就不再進(jìn)行匹配，交給d+去匹配后面的數(shù)字。所以這樣，.?匹配了盡可能少的字符，d+的結(jié)果就是1234567了。

所以說(shuō)，在做匹配的時(shí)候，字符串中間我們可以盡量使用非貪婪匹配來(lái)匹配，也就是用.?來(lái)代替.，以免出現(xiàn)匹配結(jié)果缺失的情況。

但這里注意，如果匹配的結(jié)果在字符串結(jié)尾，.*?就有可能匹配不到任何內(nèi)容了，因?yàn)樗鼤?huì)匹配盡可能少的字符，例如：

import re

content = "http://weibo.com/comment/kEraCN"
result1 = re.match("http.*?comment/(.*?)", content)
result2 = re.match("http.*?comment/(.*)", content)
print("result1", result1.group(1))
print("result2", result2.group(1))

運(yùn)行結(jié)果：

result1
result2 kEraCN
觀察到.?沒(méi)有匹配到任何結(jié)果，而.則盡量匹配多的內(nèi)容，成功得到了匹配結(jié)果。

所以在這里好好體會(huì)一下貪婪匹配和非貪婪匹配的原理，對(duì)后面寫(xiě)正則表達(dá)式非常有幫助。

修飾符

正則表達(dá)式可以包含一些可選標(biāo)志修飾符來(lái)控制匹配的模式。修飾符被指定為一個(gè)可選的標(biāo)志。

我們用一個(gè)實(shí)例先來(lái)感受一下：

import re

content = """Hello 1234567 World_This
is a Regex Demo
"""
result = re.match("^He.*?(d+).*?Demo$", content)
print(result.group(1))

和上面的例子相仿，我們?cè)谧址屑恿藗€(gè)換行符，正則表達(dá)式也是一樣的來(lái)匹配其中的數(shù)字，看一下運(yùn)行結(jié)果：

AttributeError Traceback (most recent call last)
 in ()
 ? ? ?5 """
 ? ? ?6 result = re.match("^He.*?(d+).*?Demo$", content)
----> 7 print(result.group(1))

AttributeError: "NoneType" object has no attribute "group"

運(yùn)行直接報(bào)錯(cuò)，也就是說(shuō)正則表達(dá)式?jīng)]有匹配到這個(gè)字符串，返回結(jié)果為None，而我們又調(diào)用了group()方法所以導(dǎo)致AttributeError。

那我們加了一個(gè)換行符為什么就匹配不到了呢？是因?yàn)?匹配的是除換行符之外的任意字符，當(dāng)遇到換行符時(shí)，.*?就不能匹配了，所以導(dǎo)致匹配失敗。

那么在這里我們只需要加一個(gè)修飾符re.S，即可修正這個(gè)錯(cuò)誤。

result = re.match("^He.*?(d+).*?Demo$", content, re.S)

在match()方法的第三個(gè)參數(shù)傳入re.S，它的作用是使.匹配包括換行符在內(nèi)的所有字符。

運(yùn)行結(jié)果：

這個(gè)re.S在網(wǎng)頁(yè)匹配中會(huì)經(jīng)常用到，因?yàn)镠TML節(jié)點(diǎn)經(jīng)常會(huì)有換行，加上它我們就可以匹配節(jié)點(diǎn)與節(jié)點(diǎn)之間的換行了。

另外還有一些修飾符，在必要的情況下也可以使用：

修飾符描述
re.I使匹配對(duì)大小寫(xiě)不敏感
re.L做本地化識(shí)別（locale-aware）匹配
re.M多行匹配，影響 ^ 和 $
re.S使 . 匹配包括換行在內(nèi)的所有字符
re.U根據(jù)Unicode字符集解析字符。這個(gè)標(biāo)志影響 w, W, b, B.
re.X該標(biāo)志通過(guò)給予你更靈活的格式以便你將正則表達(dá)式寫(xiě)得更易于理解。

在網(wǎng)頁(yè)匹配中較為常用的為re.S、re.I。

轉(zhuǎn)義匹配

我們知道正則表達(dá)式定義了許多匹配模式，如.匹配除換行符以外的任意字符，但是如果目標(biāo)字符串里面它就包含.我們改怎么匹配？

那么這里就需要用到轉(zhuǎn)義匹配了，我們用一個(gè)實(shí)例來(lái)感受一下：

import re

content = "(百度)www.baidu.com"
result = re.match("(百度)www.baidu.com", content)
print(result)

當(dāng)遇到用于正則匹配模式的特殊字符時(shí)，我們?cè)谇懊婕臃葱本€來(lái)轉(zhuǎn)義一下就可以匹配了。例如.我們就可以用.來(lái)匹配，運(yùn)行結(jié)果：

<_sre.SRE_Match object; span=(0, 17), match="(百度)www.baidu.com">

可以看到成功匹配到了原字符串。

以上是寫(xiě)正則表達(dá)式常用的幾個(gè)知識(shí)點(diǎn)，熟練掌握上面的知識(shí)點(diǎn)對(duì)后面我們寫(xiě)正則表達(dá)式匹配非常有幫助。

search()
我們?cè)谇懊嫣岬竭^(guò)match()方法是從字符串的開(kāi)頭開(kāi)始匹配，一旦開(kāi)頭不匹配，那么整個(gè)匹配就失敗了。

我們看下面的例子：

import re

content = "Extra stings Hello 1234567 World_This is a Regex Demo Extra stings"
result = re.match("Hello.*?(d+).*?Demo", content)
print(result)

在這里我們有一個(gè)字符串，它是以Extra開(kāi)頭的，但是正則表達(dá)式我們是以Hello開(kāi)頭的，整個(gè)正則表達(dá)式是字符串的一部分，但是這樣匹配是失敗的，也就是說(shuō)只要第一個(gè)字符不匹配整個(gè)匹配就不能成功，運(yùn)行結(jié)果如下：

None
所以match()方法在我們?cè)谑褂玫臅r(shí)候需要考慮到開(kāi)頭的內(nèi)容，所以在做匹配的時(shí)候并不那么方便，它適合來(lái)檢測(cè)某個(gè)字符串是否符合某個(gè)正則表達(dá)式的規(guī)則。

所以在這里就有另外一個(gè)方法search()，它在匹配時(shí)會(huì)掃描整個(gè)字符串，然后返回第一個(gè)成功匹配的結(jié)果，也就是說(shuō)，正則表達(dá)式可以是字符串的一部分，在匹配時(shí)，search()方法會(huì)依次掃描字符串，直到找到第一個(gè)符合規(guī)則的字符串，然后返回匹配內(nèi)容，如果搜索完了還沒(méi)有找到，那就返回None。

我們把上面的代碼中的match()方法修改成search()，再看下運(yùn)行結(jié)果：

<_sre.SRE_Match object; span=(13, 53), match="Hello 1234567 World_This is a Regex Demo">
1234567

這樣就得到了匹配結(jié)果。

所以說(shuō)，為了匹配方便，我們可以盡量使用search()方法。

下面我們?cè)儆脦讉€(gè)實(shí)例來(lái)感受一下search()方法的用法。

首先這里有一段待匹配的HTML文本，我們接下來(lái)寫(xiě)幾個(gè)正則表達(dá)式實(shí)例來(lái)實(shí)現(xiàn)相應(yīng)信息的提取。

html = """
 ? ?經(jīng)典老歌
 ? ?
 ? ? ? ?經(jīng)典老歌列表
 ? ?
 ? ?
 ? ? ? ?一路上有你
 ? ? ? ?
 ? ? ? ? ? ?滄海一聲笑
 ? ? ? ?
 ? ? ? ?
 ? ? ? ? ? ?往事隨風(fēng)
 ? ? ? ?
 ? ? ? ?光輝歲月
 ? ? ? ?記事本
 ? ? ? ?
 ? ? ? ? ? ?但愿人長(zhǎng)久
 ? ? ? ?
 ? ?
"""

觀察到

節(jié)點(diǎn)，其中
節(jié)點(diǎn)有的包含節(jié)點(diǎn)，有的不包含節(jié)點(diǎn)，節(jié)點(diǎn)還有一些相應(yīng)的屬性，超鏈接和歌手名。

首先我們嘗試提取class為active的
節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名。

所以我們需要提取第三個(gè)
節(jié)點(diǎn)下的節(jié)點(diǎn)的singer屬性和文本。

所以正則表達(dá)式可以以
開(kāi)頭，然后接下來(lái)尋找一個(gè)標(biāo)志符active，中間的部分可以用.?來(lái)匹配，然后接下來(lái)我們要提取singer這個(gè)屬性值，所以還需要寫(xiě)入singer="(.?)"，我們需要提取的部分用小括號(hào)括起來(lái)，以便于用group()方法提取出來(lái)，它的兩側(cè)邊界是雙引號(hào)，然后接下來(lái)還需要匹配節(jié)點(diǎn)的文本，那么它的左邊界是>，右邊界是，所以我們指定一下左右邊界，然后目標(biāo)內(nèi)容依然用(.?)來(lái)匹配，所以最后的正則表達(dá)式就變成了?active.?singer="(.?)">(.*?)"，然后我們?cè)僬{(diào)用search()方法，它便會(huì)搜索整個(gè)HTML文本，找到符合正則表達(dá)式的第一個(gè)內(nèi)容返回。

另外由于代碼有換行，所以這里第三個(gè)參數(shù)需要傳入re.S

所以整個(gè)匹配代碼如下：

result = re.search("(.*?)", html, re.S) if result: ? ?print(result.group(1), result.group(2))

由于我們需要獲取的歌手和歌名都已經(jīng)用了小括號(hào)包圍，所以可以用group()方法獲取，序號(hào)依次對(duì)應(yīng)group()的參數(shù)。

運(yùn)行結(jié)果：

齊秦往事隨風(fēng)
可以看到這個(gè)正是我們想提取的class為active的
節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名。

那么正則表達(dá)式不加active會(huì)怎樣呢？也就是匹配不帶class為active的節(jié)點(diǎn)內(nèi)容，我們將正則表達(dá)式中的active去掉，代碼改寫(xiě)如下：

result = re.search("(.*?)", html, re.S) if result: ? ?print(result.group(1), result.group(2))

由于search()方法會(huì)返回第一個(gè)符合條件的匹配目標(biāo)，那在這里結(jié)果就變了。

運(yùn)行結(jié)果如下：

任賢齊滄海一聲笑
因?yàn)槲覀儼補(bǔ)ctive標(biāo)簽去掉之后，從字符串開(kāi)頭開(kāi)始搜索，符合條件的節(jié)點(diǎn)就變成了第二個(gè)
節(jié)點(diǎn)，后面的就不再進(jìn)行匹配，所以運(yùn)行結(jié)果自然就變成了第二個(gè)
節(jié)點(diǎn)中的內(nèi)容。

注意在上面兩次匹配中，search()方法的第三個(gè)參數(shù)我們都加了re.S，使得.*?可以匹配換行，所以含有換行的
節(jié)點(diǎn)被匹配到了，如果我們將其去掉，結(jié)果會(huì)是什么？

result = re.search("(.*?)", html) if result: ? ?print(result.group(1), result.group(2)) 運(yùn)行結(jié)果： beyond 光輝歲月

可以看到結(jié)果就變成了第四個(gè)
節(jié)點(diǎn)的內(nèi)容，這是因?yàn)榈诙€(gè)和第三個(gè)
標(biāo)簽都包含了換行符，去掉re.S之后，.*?已經(jīng)不能匹配換行符，所以正則表達(dá)式不會(huì)匹配到第二個(gè)和第三個(gè)
節(jié)點(diǎn)，而第四個(gè)
節(jié)點(diǎn)中不包含換行符，所以成功匹配。

由于絕大部分的HTML文本都包含了換行符，所以通過(guò)上面的例子，我們盡量都需要加上re.S修飾符，以免出現(xiàn)匹配不到的問(wèn)題。

findall()
在前面我們說(shuō)了search()方法的用法，它可以返回匹配正則表達(dá)式的第一個(gè)內(nèi)容，但是如果我們想要獲取匹配正則表達(dá)式的所有內(nèi)容的話怎么辦？這時(shí)就需要借助于findall()方法了。

findall()方法會(huì)搜索整個(gè)字符串然后返回匹配正則表達(dá)式的所有內(nèi)容。

還是上面的HTML文本，如果我們想獲取所有節(jié)點(diǎn)的超鏈接、歌手和歌名，就可以將search()方法換成findall()方法。如果有返回結(jié)果的話就是list類(lèi)型，所以我們需要遍歷一下list來(lái)獲依次獲取每組內(nèi)容。

results = re.findall(" ("/2.mp3", "任賢齊", "滄海一聲笑") /2.mp3 任賢齊滄海一聲笑 ("/3.mp3", "齊秦", "往事隨風(fēng)") /3.mp3 齊秦往事隨風(fēng) ("/4.mp3", "beyond", "光輝歲月") /4.mp3 beyond 光輝歲月 ("/5.mp3", "陳慧琳", "記事本") /5.mp3 陳慧琳記事本 ("/6.mp3", "鄧麗君", "但愿人長(zhǎng)久") /6.mp3 鄧麗君但愿人長(zhǎng)久

可以看到，返回的list的每個(gè)元素都是tuple類(lèi)型，我們用對(duì)應(yīng)的索引依次取出即可。

所以，如果只是獲取第一個(gè)內(nèi)容，可以用search()方法，當(dāng)需要提取多個(gè)內(nèi)容時(shí)，就可以用findall()方法。

sub()
正則表達(dá)式除了提取信息，我們有時(shí)候還需要借助于它來(lái)修改文本，比如我們想要把一串文本中的所有數(shù)字都去掉，如果我們只用字符串的replace()方法那就太繁瑣了，在這里我們就可以借助于sub()方法。

我們用一個(gè)實(shí)例來(lái)感受一下：

import re content = "54aK54yr5oiR54ix5L2g" content = re.sub("d+", "", content) print(content) 運(yùn)行結(jié)果： aKyroiRixLg

在這里我們只需要在第一個(gè)參數(shù)傳入d+來(lái)匹配所有的數(shù)字，然后第二個(gè)參數(shù)是替換成的字符串，要去掉的話就可以賦值為空，第三個(gè)參數(shù)就是原字符串。

得到的結(jié)果就是替換修改之后的內(nèi)容。

那么在上面的HTML文本中，如果我們想正則獲取所有
節(jié)點(diǎn)的歌名，如果直接用正則表達(dá)式來(lái)提取可能比較繁瑣，比如可以寫(xiě)成這樣子：

results = re.findall("s*?()?(w+)()?s*?

", html, re.S) for result in results: ? ?print(result[1]) 運(yùn)行結(jié)果：一路上有你滄海一聲笑往事隨風(fēng) 光輝歲月記事本但愿人長(zhǎng)久
但如果我們借助于sub()函數(shù)就比較簡(jiǎn)單了，我們可以先用sub()函數(shù)將節(jié)點(diǎn)去掉，只留下文本，然后再利用findall()提取就好了。

html = re.sub("|", "", html) print(html) results = re.findall("(.*?)", html, re.S) for result in results: ? ?print(result.strip()) 運(yùn)行結(jié)果：
? ?
經(jīng)典老歌
? ?
? ? ? ?經(jīng)典老歌列表 ? ?
? ?
? ? ? ?
一路上有你
? ? ? ?
? ? ? ? ? ?滄海一聲笑 ? ? ? ?
? ? ? ?
? ? ? ? ? ?往事隨風(fēng) ? ? ? ?
? ? ? ?
光輝歲月
? ? ? ?
記事本
? ? ? ?
? ? ? ? ? ?但愿人長(zhǎng)久 ? ? ? ?
? ?

一路上有你滄海一聲笑往事隨風(fēng) 光輝歲月記事本但愿人長(zhǎng)久

可以到標(biāo)簽在經(jīng)過(guò)sub()函數(shù)處理后都沒(méi)有了，然后再findall()直接提取即可。所以在適當(dāng)?shù)臅r(shí)候我們可以借助于sub()方法做一些相應(yīng)處理可以事半功倍。

compile()
前面我們所講的方法都是用來(lái)處理字符串的方法，最后再介紹一個(gè)compile()方法，這個(gè)方法可以講正則字符串編譯成正則表達(dá)式對(duì)象，以便于在后面的匹配中復(fù)用。

import re content1 = "2016-12-15 12:00" content2 = "2016-12-17 12:55" content3 = "2016-12-22 13:21" pattern = re.compile("d{2}:d{2}") result1 = re.sub(pattern, "", content1) result2 = re.sub(pattern, "", content2) result3 = re.sub(pattern, "", content3) print(result1, result2, result3)

例如這里有三個(gè)日期，我們想分別將三個(gè)日期中的時(shí)間去掉，所以在這里我們可以借助于sub()方法，sub()方法的第一個(gè)參數(shù)是正則表達(dá)式，但是這里我們沒(méi)有必要重復(fù)寫(xiě)三個(gè)同樣的正則表達(dá)式，所以可以借助于compile()函數(shù)將正則表達(dá)式編譯成一個(gè)正則表達(dá)式對(duì)象，以便復(fù)用。

運(yùn)行結(jié)果：

2016-12-15 ?2016-12-17 ?2016-12-22

另外compile()還可以傳入修飾符，例如re.S等修飾符，這樣在search()、findall()等方法中就不需要額外傳了。所以compile()方法可以說(shuō)是給正則表達(dá)式做了一層封裝，以便于我們更好地復(fù)用。

到此為止，正則表達(dá)式的基本用法就介紹完畢了，希望可以對(duì)大家有幫助。
喜歡就關(guān)注我吧

s ?

... ?

abc ?

云服務(wù)器 GPU云服務(wù)器 python3正則表達(dá)式正則正則表達(dá)式正則匹配正則表達(dá)式 -正則表達(dá)式

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/45247.html

上一篇：專(zhuān)利相關(guān)知識(shí)

下一篇：LeetCode 21：合并兩個(gè)有序鏈表 Merge Two Sorted Lists

相關(guān)文章

工具使用-積累與發(fā)現(xiàn)

摘要：一積累中如何快速查看包中的源碼最常用的大開(kāi)發(fā)快捷鍵技巧將對(duì)象保存到文件中從文件中讀取對(duì)象中的用法的配置詳解和代碼的格式詳解格式化內(nèi)容設(shè)置生成詳解注釋規(guī)范中設(shè)置內(nèi)存調(diào)試的小知識(shí)單步執(zhí)行命令的區(qū)別的動(dòng)態(tài)代理機(jī)制詳解內(nèi)容有瑕疵，樓指正泛型繼承的幾一、積累 1.JAVA Eclipse中如何快速查看jar包中的class源碼最常用的15大Eclipse開(kāi)發(fā)快捷鍵技巧 Java將對(duì)象保存到...

wangjuntytl 2019-08-16 10:48 評(píng)論0 收藏0

工具使用-積累與發(fā)現(xiàn)

摘要：一積累中如何快速查看包中的源碼最常用的大開(kāi)發(fā)快捷鍵技巧將對(duì)象保存到文件中從文件中讀取對(duì)象中的用法的配置詳解和代碼的格式詳解格式化內(nèi)容設(shè)置生成詳解注釋規(guī)范中設(shè)置內(nèi)存調(diào)試的小知識(shí)單步執(zhí)行命令的區(qū)別的動(dòng)態(tài)代理機(jī)制詳解內(nèi)容有瑕疵，樓指正泛型繼承的幾一、積累 1.JAVA Eclipse中如何快速查看jar包中的class源碼最常用的15大Eclipse開(kāi)發(fā)快捷鍵技巧 Java將對(duì)象保存到...

Lyux 2019-07-30 14:43 評(píng)論0 收藏0

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

摘要：時(shí)間永遠(yuǎn)都過(guò)得那么快，一晃從年注冊(cè)，到現(xiàn)在已經(jīng)過(guò)去了年那些被我藏在收藏夾吃灰的文章，已經(jīng)太多了，是時(shí)候把他們整理一下了。那是因?yàn)槭詹貖A太亂，橡皮擦給設(shè)置私密了，不收拾不好看呀。 ...

Harriet666 2021-09-10 10:51 評(píng)論0 收藏0

Python3列表解析之任意迭代、表達(dá)式、條件和嵌套循環(huán)等特性詳解

摘要：概述列表解析即利用現(xiàn)有的可迭代對(duì)象創(chuàng)建新的列表的語(yǔ)法，其過(guò)程完全可以用循環(huán)復(fù)刻，但其解析效率比循環(huán)快一些，缺點(diǎn)也很明顯，即不適合用于大數(shù)據(jù)迭代對(duì)象的解析，因?yàn)闀?huì)占用大量?jī)?nèi)存，導(dǎo)致。當(dāng)然列表解析讓人愛(ài)不釋手的另一個(gè)原因就是簡(jiǎn)潔。概述列表解析即利用現(xiàn)有的可迭代對(duì)象創(chuàng)建新的列表的Python語(yǔ)法，其過(guò)程完全可以用for循環(huán)復(fù)刻，但其解析效率比f(wàn)or循環(huán)快一些，缺點(diǎn)也很明顯，即不適合用于大數(shù)據(jù)迭...

番茄西紅柿 2019-05-23 16:08 評(píng)論0 收藏0

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

phpmatt

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章
閱讀更多

#雙11# gigsgigscloud：送現(xiàn)金卷+送時(shí)間買(mǎi)1送1，美國(guó)CN2 GIA VPS，低至$

閱讀 3723·2021-11-11 11:00

C++游戲編程教程（五）——項(xiàng)目實(shí)戰(zhàn)

閱讀 2198·2021-10-08 10:05

繼電器保護(hù)電路設(shè)計(jì)

閱讀 2724·2021-10-08 10:04

一起用Python做個(gè)上課點(diǎn)名器，好玩又實(shí)用！

閱讀 3224·2021-09-30 09:48

寶塔Linux面板專(zhuān)業(yè)版：收費(fèi)版Nginx防火墻設(shè)置教程

閱讀 3820·2021-09-27 14:10

2021-09-08三道程序（序列中刪除指定數(shù)字、有序序列判斷、有序序列合并）

閱讀 1717·2021-09-09 09:33

Weex系列(7) ——踩坑填坑的總總

閱讀 2115·2019-08-30 15:55

關(guān)于CSS HACK

閱讀 1619·2019-08-30 13:53

最新活動(dòng)

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python3之正則表達(dá)式詳解

經(jīng)典老歌

經(jīng)典老歌

相關(guān)文章

工具使用-積累與發(fā)現(xiàn)

工具使用-積累與發(fā)現(xiàn)

首次公開(kāi)，整理12年積累的博客收藏夾，零距離展示《收藏夾吃灰》系列博客

Python3列表解析之任意迭代、表達(dá)式、條件和嵌套循環(huán)等特性詳解

發(fā)表評(píng)論

0條評(píng)論

phpmatt

男|高級(jí)講師

TA的文章

#雙11# gigsgigscloud：送現(xiàn)金卷+送時(shí)間買(mǎi)1送1，美國(guó)CN2 GIA VPS，低至$

C++游戲編程教程（五）——項(xiàng)目實(shí)戰(zhàn)

繼電器保護(hù)電路設(shè)計(jì)

一起用Python做個(gè)上課點(diǎn)名器，好玩又實(shí)用！

寶塔Linux面板專(zhuān)業(yè)版：收費(fèi)版Nginx防火墻設(shè)置教程

2021-09-08三道程序（序列中刪除指定數(shù)字、有序序列判斷、有序序列合并）

Weex系列(7) ——踩坑填坑的總總

關(guān)于CSS HACK

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python3之正則表達(dá)式詳解

經(jīng)典老歌

經(jīng)典老歌

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！