進(jìn)階正則表達(dá)式

leo108 發(fā)布于2019-08-19 14:35 / 1501人閱讀

摘要：一正則表達(dá)式的工作機制畫了一個草圖，簡單的說明了下正則表達(dá)式的工作原理。只要正則表達(dá)式?jīng)]有嘗試完所有的可選項，他就會回溯到最近的決策點也就是上次匹配成功的位置。而在正則表達(dá)中，主要就是之類的數(shù)字引用。

本文同步自我的博客園：http://www.cnblogs.com/hustskyking/

關(guān)于正則表達(dá)式，網(wǎng)上可以搜到一大片文章，我之前也搜集了一些資料，并做了排版整理，可以看這篇文章http://www.cnblogs.com/hustskyking/archive/2013/06/04/RegExp.html，作為基礎(chǔ)入門講解，這篇文章說的十分到位。

記得最開始學(xué)習(xí)正則，是使用 php 做一個爬蟲程序。為了獲取指定的信息，必須用一定的方式把有規(guī)律的數(shù)據(jù)匹配出來，而正則是首選。下面是當(dāng)時寫的爬蟲程序的一個代碼片段：

$regdata = "/((?[^<]*)
){0,1}⊙(?.{12})S*s/";

//獲取頁面
$html = file_get_contents("http://www.qnwz.cn/html/daodu/201107/282277.html");  
$html = iconv("GBK", "UTF-8", $html);
if ($html == "") { 
    die("
出錯：【錯】無法打開《青年文摘》頁面");
}

//匹配頁面信息
preg_match_all($regdata, $html, $mdata);

print_r($mdata);

當(dāng)時寫代碼還真是歡樂多，什么都不懂，什么都是新知識，學(xué)起來津津有味。我覺得學(xué)習(xí)知識一定要把握最基本的原理，先把一個知識的大概輪廓搞清楚，然后學(xué)習(xí)怎么去使用他，完了就是深入學(xué)習(xí)，了解底層基礎(chǔ)實現(xiàn)。很多人解決問題都是靠經(jīng)驗，這個當(dāng)然很重要，但如果我們弄懂了一項技術(shù)最底層的實現(xiàn)，完全可以靠自己的推斷分析出問題的根源。我對一些公司的招聘要求特別不滿，說什么要三年五年Javascript編程經(jīng)驗云云，經(jīng)驗當(dāng)然和時間成正相關(guān)，但是對于那些沒有三年五年工作經(jīng)驗卻照樣能夠解決實際的人呢？算是小小的吐槽吧，下面進(jìn)入正題。

一、正則表達(dá)式的工作機制

畫了一個草圖，簡單的說明了下正則表達(dá)式的工作原理。

    +--------+
    |  編譯  |
    +--------+
         |
         ↓
+----------------+
|  設(shè)置開始位置   |←---------+
+----------------+          ↑
         |                  |
         ↓               其 |
+----------------+       他 |
|  匹配 & 回溯   |        路 |
+----------------+       徑 |
         |                  |
         ↓                  |
+----------------+          |
|  成功 or 失敗   |---------→+
+----------------+

你寫的任何一個正則直接量或者 RegExp 都會被瀏覽器編譯為一個原生代碼程序，第一次匹配是從頭個字符開始，匹配成功時，他會查看是否還有其他的路徑?jīng)]有匹配到，如果有的話，回退到上一次成功匹配的位置，然后重復(fù)第二步操作，不過此時開始匹配的位置（lastIndex）是上次成功位置加 1.這樣說有點難以理解，下面寫了一個 demo，這個 demo 就是實現(xiàn)一個正則表達(dá)式的解析引擎，因為邏輯和效果的表現(xiàn)都太復(fù)雜了，所以只做了一個簡單的演示：

http://qianduannotes.duapp.com/demo/regexp/index.html

如果要深入了解正則表達(dá)式的內(nèi)部原理，必須先理解匹配過程的一個基礎(chǔ)環(huán)節(jié)——回溯，他是驅(qū)動正則的一個基本動力，也是性能消耗、計算消耗的根源。

二、回溯

正則表達(dá)式中出現(xiàn)最多的是分支和量詞，上面的 demo 中可以很清楚的看到 hi 和 hello 這兩個分支，當(dāng)匹配到第一個字符 h 之后，進(jìn)入 (i|ello) 的分支選擇，首先是進(jìn)入 i 分支，當(dāng) i 分支匹配完了之后，再回到分支選擇的位置，重新選擇分支。簡單點說，分支就是 | 操作符帶來的多項選擇問題，而量詞指的是諸如 *, +?, {m,n} 之類的符號，正則表達(dá)式必須決定何時嘗試匹配更多的字符。下面結(jié)合回溯詳細(xì)說說分支和量詞。

1. 分支

繼續(xù)分析上面那個案例。"Lalala. Hi, barret. Hello, John".match(/H(i|ello), barret/g),首先會查找 H 字符，在第九位找到 H 之后，正則子表達(dá)式提供了兩個選擇 (i|ello)，程序會先拿到最左邊的那個分支，進(jìn)入分支后，在第十位匹配到了 i，接著匹配下一個字符，下一個字符是逗號，接著剛才的位置又匹配到了這個逗號，然后再匹配下一個，依次類推，直到完整匹配到整個正則的內(nèi)容，此時程序會在Hi, barret后面做一個標(biāo)記，表示在這里進(jìn)行了一次成功的匹配。但程序到此并沒有結(jié)束，因為后面加了一個全局參數(shù)，依然使用這個分支往后匹配，很顯然，到了 Hello 的時候，Hi 分支匹配不了了，于是程序會回溯到剛才我們做標(biāo)記的位置，并進(jìn)入第二個分支，從做標(biāo)記的位置重新開始匹配，依次循環(huán)。

只要正則表達(dá)式?jīng)]有嘗試完所有的可選項，他就會回溯到最近的決策點（也就是上次匹配成功的位置）。

2. 量詞

量詞這個概念特別簡單，只是在匹配過程中有貪婪匹配和懶惰匹配兩種模式，結(jié)合回溯的概念理解稍微復(fù)雜。還是用幾個例子來說明。

1) 貪婪

str = "AB1111BA111BA";
reg = /AB[sS]+BA/;
console.log(str.match(reg));

首先是匹配AB，遇到了 [sS]+，這是貪婪模式的匹配，他會一口吞掉后面所有的字符，也就是如果 reg 的內(nèi)容為 AB[sS]+，那后面的就不用看了，直接全部匹配，而往后看，正則后面還有B字符，所以他會先回溯到倒數(shù)第一個字符，匹配看是否為 B，顯然倒數(shù)第一個字符不是B，于是他又接著回溯，找到了B字母，找到之后就不繼續(xù)回溯了，而是往后繼續(xù)匹配，此刻匹配的是字符A，程序發(fā)現(xiàn)緊跟B后的字母確實是A，那此時匹配就結(jié)束了。如果沒有看明白，可以再讀讀下面這個圖：

  REG: /AB[sS]+BA/
MATCH: A               匹配第一個字符
       AB              匹配第二個字符
       AB1111BA111BA   [sS]+ 貪婪吞并所有字符
       AB1111BA111BA   回溯，匹配字符B
       AB1111BA111B    找到字符B，繼續(xù)匹配A
       AB1111BA111BA   找到字符A，匹配完成，停止匹配

2) 懶惰（非貪婪）

str = "AB1111BA111BA";
reg = /AB[sS]+?BA/;
console.log(str.match(reg));

與上面不同的是，reg 中多了一個 ? 號，此時的匹配模式為懶惰模式，也叫做非貪婪匹配。此時的匹配流程是，先匹配AB，遇到[sS]+?，程序嘗試跳過并開始匹配后面的字符B，往后查看的時候，發(fā)現(xiàn)是數(shù)字1，不是要匹配的內(nèi)容，繼續(xù)往后匹配，知道遇到字符B，然后匹配A，發(fā)現(xiàn)緊接著B后面就有一個A，于是宣布匹配完成，停止程序。

  REG: /AB[sS]+BA/
MATCH: A               匹配第一個字符
       AB              匹配第二個字符
       AB              [sS]+? 非貪婪跳過并開始匹配B
       AB1             不是B，回溯，繼續(xù)匹配
       AB11            不是B，回溯，繼續(xù)匹配
       AB111           不是B，回溯，繼續(xù)匹配
       AB1111          不是B，回溯，繼續(xù)匹配
       AB1111B         找到字符B，繼續(xù)匹配A
       AB1111BA        找到字符A，匹配完成，停止匹配

如果匹配的內(nèi)容是 AB1111BA，那貪婪和非貪婪方式的正則是等價的，但是內(nèi)部的匹配原理還是有區(qū)別的。為了高效運用正則，必須搞清楚使用正則時會遇到那些性能消耗問題。

三、逗比的程序

//去測試下這句代碼
"TTTTTTTT".match(/(T+T+)+K/);
//然后把前面的T重復(fù)次數(shù)改成30
//P.S:小心風(fēng)扇狂轉(zhuǎn)，CPU暴漲

我們來分析下上面這段代碼，上面使用的都是貪婪模式，那么他會這樣做：

  REG: (T+T+)+K
MATCH: ①第一個T+匹配前7個T，第二個T+匹配最后一個T，沒找到K，宣布失敗，回溯到最開始位置
       ②第一個T+匹配前6個T，第二個T+匹配最后兩個T，沒找到K，宣布失敗，回溯到最開始位置
       ③...
       ... 接著還會考慮(T+T+)+后面的 + 號，接著另一輪的嘗試。
       ⑦...
       ...

這段程序并不會智能的去檢測字符串中是否存在 K，如果匹配失敗，他會選擇其他的匹配方式（路徑）去匹配，從而造成瘋狂的回溯和重新匹配，結(jié)果可想而知。這是回溯失控的典型例子。

四、前瞻和反向引用 1. 前瞻和引用

前瞻有兩種，一種是負(fù)向前瞻，JS中使用 (?!xxx) 來表示，他的作用是對后面要匹配的內(nèi)容做一個預(yù)判斷，如果后面的內(nèi)容是xxx，則此段內(nèi)容匹配失敗，跳過去重新開始匹配。另一種是正向前瞻，(?=xxx)，匹配方式和上面相反，還有一個長的類似的是 (?:xxx),這個是匹配xxx，他是非捕獲性分組匹配，即匹配的內(nèi)容不會創(chuàng)建反向引用。具體內(nèi)容可以去文章開頭提到的文檔中查看。

反向引用，這個在 replace 中用的比較多，在 replace 中：

字符	替換文本
$1、$2、...、$99	與 regexp 中的第 1 到第 99 個子表達(dá)式相匹配的文本。
$&	與 regexp 相匹配的子串。
$`	位于匹配子串左側(cè)的文本。
$"	位于匹配子串右側(cè)的文本。
$$	直接量符號。

而在正則表達(dá)中，主要就是 1, 2 之類的數(shù)字引用。前瞻和反向引用使用恰當(dāng)可以大大的減少正則對資源的消耗。舉個例子來簡單說明下這幾個東西：

問題：使用正則匹配過濾后綴名為 .css 和 .js 的文件。
      如：test.wow.js test.wow.css test.js.js等等。

有人會立馬想到使用負(fù)向前瞻，即：

//過濾js文件
/(?!.+.js$).*/.exec("test.wow.js")

//過濾js和css文件
/(?!.+.js$|.+.css$).*/.exec("test.wow.js")
/(?!.+.js$|.+.css$).*/.exec("test.wow.html")

但是你自己去測試下，拿到的結(jié)果是什么。匹配非js和非css文件可以拿到正確的文件名，但是我們期望這個表達(dá)式對js和css文件的匹配結(jié)果是null，上面的表達(dá)式卻做不到。問題是什么，因為(?!xxx)和(?=xxx)都會消耗字符，在做預(yù)判斷的時候把 .js 和 .css 給消耗了，所以這里我們必須使用非捕獲模式。

/(?:(?!.+.js$|.+.css$).)*/.exec("test.wow.html");
/(?:(?!.+.js$|.+.css$).)*/.exec("test.wow.js");

我們來分析下這個正則：

(?:(?!.+.js$|.+.css$).)*
---   ----------------  -
 |                |     |   
 +----------------------+
             ↓    | 
非捕獲，內(nèi)部只有一個占位字符
                  |
                  ↓
    負(fù)向前瞻以.js和.css結(jié)尾的字符串

最后一個星號是貪婪匹配，直接吞掉全部字符。

這里講的算是有點復(fù)雜了，不過在稍復(fù)雜的正則中，這些都是很基礎(chǔ)的東西了，想在這方面提高的童鞋可以多研究下。

2. 原子組

JavaScript的正則算是比較弱的，他沒有分組命名、遞歸、原子組等功能特別強的匹配模式，不過我們可以利用一些組合方式達(dá)到自己的目的。上面的例子中，我們實際上用正則實現(xiàn)了一個或和與的功能，上面的例子體現(xiàn)的還不是特別明顯，再寫個例子來展示下：

str1 = "我(wo)叫(jiao)李(li)靖(jing)";
str2 = "李(li)靖(jing)我(wo)叫(jiao)";
reg = /(?=.*?我)(?=.*?叫)(?=.*?李)(?=.*?靖)/;
console.log(reg.test(str1)); //true
console.log(reg.test(str2)); //true

不管怎么打亂順序，只要string中包含“我”，“是”，“李”，“靖”這四個字，結(jié)果都是true。

類似(?=xxx)1，就相當(dāng)于一個原子組，原子組的作用就是消除回溯，只要是這種模式匹配過的地方，回溯時都不會到這里和他之前的地方。上面的程序"TTTTTTTT".match(/(T+T+)+K/);可以通過原子組的方式處理：

"TTTTTTTT".match(/(?=(T+T+))2+K/);

如此便能徹底消除回溯失控問題。

五、小結(jié)

關(guān)于正則的學(xué)習(xí)，重點是要多練習(xí)多實踐，并且多嘗試用不同的方案去解決一個正則問題，一個很典型的例子，去除字符串首尾的空白，嘗試用5-10種不同的正則去測試，并思考哪些方式的效率最高，為什么？通過這一連串的思考可以帶動你學(xué)習(xí)的興趣，也會讓你成長的比較快~

云服務(wù)器 GPU云服務(wù)器正則正則表達(dá)式正則匹配正則表達(dá)式 -正則表達(dá)式正則表達(dá)式?

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/78024.html

發(fā)表評論

登陸后可評論

0條評論

leo108

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 3338·2023-04-26 00:07
傳奇4怎么防止封ip?傳奇4封號/封IP解決辦法

閱讀 3948·2021-11-23 10:08
利用Python自動發(fā)送郵件

閱讀 2958·2021-11-22 09:34
什么主機空間好-美國虛擬主機空間哪個好？

閱讀 868·2021-09-22 15:27
前端每日實戰(zhàn)：140# 視頻演示如何用純 CSS 創(chuàng)作文本的淡入動畫效果

閱讀 1758·2019-08-30 15:54
聊一聊幾種常用web圖片格式：gif、jpg、png、webp

閱讀 3763·2019-08-30 14:07
SVG的正確使用姿勢

閱讀 926·2019-08-30 11:12
送給CSS初學(xué)者的懸停過渡動畫三部曲

閱讀 691·2019-08-29 18:44

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

進(jìn)階正則表達(dá)式

相關(guān)文章

**快速掌握正則表達(dá)式 | 02 掌握進(jìn)階的匹配操作**

JavaScript正則進(jìn)階之路——活學(xué)妙用奇淫正則表達(dá)式

JavaScript正則進(jìn)階之路——活學(xué)妙用奇淫正則表達(dá)式

**JavaScript正則表達(dá)式進(jìn)階指南**

發(fā)表評論

0條評論

leo108

男|高級講師

TA的文章

tensorflow

傳奇4怎么防止封ip?傳奇4封號/封IP解決辦法

利用Python自動發(fā)送郵件

什么主機空間好-美國虛擬主機空間哪個好？

前端每日實戰(zhàn)：140# 視頻演示如何用純 CSS 創(chuàng)作文本的淡入動畫效果

聊一聊幾種常用web圖片格式：gif、jpg、png、webp

SVG的正確使用姿勢

送給CSS初學(xué)者的懸停過渡動畫三部曲

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

進(jìn)階正則表達(dá)式

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！