經(jīng)驗拾憶（純手工）=> Python正則全解詳解

Luosunce 發(fā)布于2019-07-31 11:25 / 2656人閱讀

預編譯

import re
re1 = re.compile(r"元字符 組成的正則規(guī)則")    # 元字符下面會說
re1.方法()                     # 方法下邊也會說

元字符：

表示普通字符：
    .    # 除了
外 都可以匹配的到                
    d   # 只匹配 純數(shù)字 0-9
    D   # 和 d相反， 除了數(shù)字全都匹配
    s   # 只匹配空格
    S   # 和 s相反，除了空格，全都匹配         # 我喜歡用 [sS]*? 匹配所有
    w   # 只匹配 純數(shù)字 或 大小寫字母 或 下劃線
    W   # 與 w 恰好相反，     除了 純數(shù)字、大小寫字母、下劃線 全都匹配
    []   # [abcde] 只要包含這個列表的字符，都可以匹配的到。但默認只取一個， 簡寫 [a-e]
             eg: re.compile(r"[e-h]").match("hello python ").group(0)
             >>> h
         此外:  [^abcde] 或 [^a-e] 表示 "排除"，意思就是 除了abcde全匹配
    
匹配表示邊界的：
    ^    # 匹配 起始 位置，受 re.M 影響     #注意：不要和 [^123] 除123之外搞混
         eg:
            import re
            r1 = re.compile(r"^d+")
            print(r1.search("456hello123").group())
            >>> 456

    $    # 匹配 結(jié)尾 位置，受 re.M 影響
         eg:
            import re
            
            s = """
            123abc456
            678abc789
            """
            r1 = re.compile(r"d+$",re.M)    # 注意這里加入了re.M
            print(r1.findall(s))
            >>> ["456", "789"]    # 這是寫了re.M，就意味著 每一行都給你多帶帶按照規(guī)則處理
            >>> ["789"]           # 如果沒寫re.M, 那么就按照整體，去最后一行的尾部
            注： 其實re.M的本質(zhì)是 是根據(jù)
，進行 斷行，斷行后對每一行按照規(guī)則多帶帶處理
            
    ： # 匹配 單詞的 邊界（除了 數(shù)字、中英字母、下劃線 的 所有符號）
        eg:
            import re
            s = "你好啊----好個P"
            r1 = re.compile(r"好")
            print(r1.findall(s))
            >>> 好    
            # 解釋：這個‘好’是，后面  的那個。因為后面的 ’好‘ 字 左邊是符號，而非單詞字符
                       
    B： # 匹配 單詞 非 邊界（包括 數(shù)字、中英字母、下劃線）
        eg:
            import re
            s = "你好啊----好個P"
            r1 = re.compile(r"好")
            print(r1.findall(s))
            >>> 好    
            # 解釋：這個‘好’是，前面  的那個。因為前面的 ’好‘ 字 左邊是中文字符。屬于非邊界
            # 所以就匹配上了
        
        再次總結(jié)：  與 B：
            ： 匹配邊界字符。邊界字符：（除了 數(shù)字、字母、漢字、下劃線的所有符號）
            B： 匹配非邊界字符。非邊界字符：（數(shù)字、字母、漢字、下劃線）
    
匹配表示數(shù)量的：
    *    ：    0次 或 多次                    eg： 你*
    +    ：    1次 或 多次                    eg:  你+
    ?    ：    0次 或 一次                    eg:  你?
    {m}  :     出現(xiàn)m次                        eg:  你{3}
    {m,} :    至少 出現(xiàn)m次                   eg:  你{3,}   # 涉及到貪婪模式，不深的不要用
    {m,n}:     m次 到 n次  之間任意一次就行    eg:  你{3,6}
    
表示分組：
    |    ： 相當于或運算符， 兩邊寫的是 正則表達式，  優(yōu)先選擇左邊的
    ()   :  括起來里面的內(nèi)容，就變成了分組。 可以用 .group(1)提取，如果有更多那就 group(2)..
    (?P) ： 在上面分組的基礎(chǔ)上 起別名
    (?P=name)  :  根據(jù)分組的別名來使用分組
        eg:
            s = "你好"
            r1 = re.compile(r"<(?Pw+)>(w+)").match(s).group(2)
            print(r1)
            >>> 你好
            
    數(shù)字 ：提取的分組可以在 同一個正則中 復用  
         eg: 
             s = "你好"
             r1 = re.compile(r"<(w+)>(w+)")    # 1 代表復用第一個分組
             print(r1.match(s).group(2))         # 2代表提取第二個分組
             >>> 你好

匹配模式

re.M    # 多行匹配， 影響   ^ 和 $，上面講  ^ 與 $已經(jīng)詳解了。
re.I    # 忽略大小寫
        eg:
            s = "aAbB"
            r1 = re.compile(r"aabb", re.I).match(s).group()
            print(r1)
            >>> aAbB

re.S    # 提升 . 的權(quán)限，  讓 .  可以 匹配到換行符
        s = """
        hello
        python
        """
        r1 = re.compile(r".*", re.S).match(s).group()    # 注意這里 re.S
        print(r1)
        >>> hello
            python
        注意：如果不寫 re.S 那么 .* 只能匹配到第一行的空字符串，因為遇到第一個空行的
就停止了
        
re.X    # 可以給正則分行寫，并可以加注釋，
    eg:
        import re
    
        title = "1好2你3"
        r1 = re.compile(r"""
            1     # 注釋1  看這兩行
            好    # 注釋2  看這兩行，1 和 好 沒有加逗號。但是他們屬于整體的規(guī)則，你可以加注釋
        """, re.X)        # 把正則可以分行寫,  用了re.X后，分行的正則會被看作為一行
        result = r1.match(title).group()
        print(result)    # 輸出結(jié)果： 1好

貪婪模式與非貪婪模式

個人理解： 
    貪婪模式：(Python默認使用的就是 貪婪模式) 
        你想匹配 一個句子中的 一個單詞， 但是你寫的規(guī)則恰好可以 滿足 匹配所有單詞。
        那么它就會 貪婪的 把所有單詞 全部 都給你匹配出來。   (貪)
        
        使用方法：
            * 或 +
            
    非貪婪模式：
        即使你把規(guī)則寫的很好，并且能把所有字符串都匹配到， 但是如果你加上了  非貪婪模式。
        在滿足規(guī)則條件的前提下，只匹配一個.
        
        使用方法：
            *? 或 +?

    eg1：基于search的貪婪模式（match同此）
        我們先回憶一下：search()方法的 最核心思想就是：從前往后搜，搜到一個滿足的就直接返回。
        OK，繼續(xù)。
        
        貪婪：（默認）：
            import re
            r1 = re.compile(r"d+")
            print(r1.search("你好333你好333你好").group())
            >>> 333        # 滿足規(guī)則后 盡可能貪， 所以第一串連著的 "333"  搜到了就直接返回了
        
        非貪婪（就多了個問號 ? ）：
            import re
            r1 = re.compile(r"d+?")
            print(r1.search("你好333你好333你好").group())
            >>> 3          # 嗯，你的規(guī)則就是 至少一個數(shù)字，搜到了一個就可以返回了，干得漂亮。
            
    
    eg2: 基于findall的貪婪模式（如果你findall與規(guī)則，理解的不透徹，這個會有點繞的，前方高能）
        先回憶一下：findall()方法的 最核心思想就是：拿著 定死的 規(guī)則，把所有滿足規(guī)則的都提出來
        OK，繼續(xù)。
        
        貪婪（默認）：
            import re
            r1 = re.compile(r"d+")
            print(r1.findall("你好333你好333你好"))
            >>> ["333", "333"]
            
            解釋： 規(guī)則是匹配至少一位數(shù)字。
                  但是 貪婪模式 提醒了 規(guī)則：“你的任務(wù)是給我盡可能的 多匹配數(shù)字”
                  findall 拿著 被貪婪化的 規(guī)則 去匹配原始字符串
                  
                  被貪婪模式 提醒過的規(guī)則果然不負眾望，  一次提一串連著的 ‘333‘  
                  findall 拿著它 提取了   兩次   ,就把所有數(shù)字提取出來了
                  結(jié)果就是    ["333", "333"]
                  
        非貪婪：
            import re
            r1 = re.compile(r"d+?")
            print(r1.findall("你好333你好333你好"))
            >>> ["3", "3", "3", "3", "3", "3"]

            解釋： 規(guī)則 同樣是 匹配至少一位數(shù)字。
                  但是 非 貪婪模式 提醒了 規(guī)則：“你的任務(wù)是給我盡可能的 少  匹配數(shù)字”
                  findall 拿著 被貪婪化的 規(guī)則 去匹配原始字符串
          
                  被貪婪模式 提醒過的規(guī)則果然不負眾望，  一次只提取一個 ‘3‘  
                  findall 拿著它 提取了   六次   ,才把所有數(shù)字提取出來了
                  結(jié)果就是    ["3", "3", "3", "3", "3", "3"]

匹配方法

match():
    """
        match()方法是 根據(jù)規(guī)則從第一個開始，向后逐個匹配，如果有一個字符匹配不上，就返回None
    """
    
    s = "hello python"
    re1 = re.compile(r"he")  
    re1.match("")
    result = re1.match(s).group() if re1.match(s) else None   # 注意：非None才有g(shù)roup方法
    print(result)        # 通過 group()方法獲得的才是最終 正則匹配的字符串
    >>> he
    
    簡單分組提?。?        s = "hello python"
        re1 = re.compile(r"h(e)llo") # 給e加個一個(),就代表添加了分組，一會要把他提出來
        result = re1.match(s).group(1) if re1.match(s) else None 
            # 注意上方的  group(1)  這個參數(shù)是1，代表 只 提取 分組 里面的內(nèi)容
                >>> e
            # 如果是 group() 或 group(0)  代表提取 整個正則規(guī)則 的內(nèi)容
                >>> hello
        print(result)    
        >>> e
    
    嵌套-平行（深度-廣度）分組提?。?        原理：分組提取先提取嵌套的，后提取平行的 (專業(yè)點就是先深度，后廣度)
        eg：
            a = "123-%%%-dd"
            result = re.compile(r"123(-(%%%)-)d(d)").match(a).groups()   
            # 或者用 group(1), group(2), group(3) 代替groups() 單個看也行
            print(result)
            >>> ("-%%%-", "%%%", "d") 

search():
    """
        search() 方法是： 從前向后按規(guī)則‘搜索’, 直到搜到位置，搜不到就返回None
    """
    s = "aaa123aaa"
    r1 = re.compile(r"d+").search(s).group()
    print(r1)     
    >>> 123

findall():
    """
        findall() 方法是： 按照正則規(guī)則，搜索所有符合規(guī)則的字符串，以列表的形式作為結(jié)果返回
    """
    s = "aaa---123---bbb"
    r1 = re.compile(r"w+").findall(s)
    print(r1)
    >>> ["aaa", "123", "bbb"]
    
    微不足道的擴展：
        a = "123-%%%-dd"
        result = re.compile(r"-(.*?)-").findall(a)
        print(result)
        >>> %%%
        # 解釋： findall() 方法中 如果規(guī)則中含有分組，那么就會只返回分組中提取的的內(nèi)容
        
finditer():
    """
        finditer() 和 findall() 使用方式一樣，只不過返回結(jié)果是 可迭代對象，easy,此處不在多說
    """
    
split():
    """
        split()方法是：按照規(guī)則去切割，切割結(jié)果以列表的方式返回
    """
    語法關(guān)聯(lián)：
        我們知道字符串  有 split() 方法，可以按照一個參數(shù)損耗來切割，但是這個參數(shù)只能指定一個
        如果讓你在多種規(guī)則的前提下切割，需要怎么辦。
        巧了，正則切割split() 方法就是解決這個問題的， 實例如下：
        
    s = "aaa%%123@@bbb"                  # 可以看見，%和@符號把字符分開了，現(xiàn)在我們只想要字符
    r1 = re.compile(r"W+").split(s)     # W 大寫： 以非單詞性字符作為損耗規(guī)則，來切割
    print(r1)
    >>> ["aaa", "123", "bbb"]

sub():
    """
        sub()方法是： 按照規(guī)則匹配選出代替換的字符，然后自己 給定字符去替換
    """
    場景1：常用方式，自己給定目標字符串，按規(guī)則匹配并直接替換原始字符串
        eg:
            s = "aaa%%123@@bbb"
            r1 = re.compile(r"W+").sub("你好",s)
            print(r1)
            >>> aaa你好123你好bbb
        
    場景2：正則匹配后的結(jié)果 經(jīng)過函數(shù)操作，函數(shù)的返回值作為 替換的最終結(jié)果
        eg:
            s = "aaa%%123@@bbb"
            r1 = re.compile(r"W+").sub(lambda a:a.group()*2, s)
            print(r1)
            >>> aaa%%%%123@@@@bbb
            解釋： 按照規(guī)則匹配到的字符是 %%和@@，經(jīng)過函數(shù) 乘以2后， 就替換成了 %%%%和@@@@
            
subn():
    """
        subn() 和 sub()語法幾乎一樣，唯一的擴展功能就是 返回結(jié)果是元組，(字符串, 次數(shù))
    """
    s = "aaa%%123@@bbb"
    r1 = re.compile(r"W+").subn("你好",s)
    print(r1)
    >>> ("aaa你好123你好bbb", 2)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/45093.html

發(fā)表評論

登陸后可評論

0條評論

Luosunce

男|高級講師

我要關(guān)注我要私信

TA的文章

盤點UCloud優(yōu)惠活動及新老UCloud服務(wù)器優(yōu)惠政策「2021.8」

閱讀 2890·2021-08-20 09:37
淺談前端開發(fā)規(guī)范

閱讀 1616·2019-08-30 12:47
解決一行文本溢出隱藏點擊展開之后全部顯示并自動換行每行長度一致問題

閱讀 1101·2019-08-29 13:27
CSS學習筆記之布局

閱讀 1692·2019-08-28 18:02
virtual DOM是如何優(yōu)化性能的

閱讀 757·2019-08-23 18:15
生動形象解釋forEach、filter、map、some、every、find、findIndex

閱讀 3094·2019-08-23 16:51
react+express項目

閱讀 938·2019-08-23 14:13
前端本地模糊搜索并高亮

閱讀 2156·2019-08-23 13:05

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

經(jīng)驗拾憶（純手工）=> Python正則全解詳解

你好

你好

相關(guān)文章

經(jīng)驗拾憶（純手工）=> Python高階函數(shù)操作

經(jīng)驗拾憶（純手工）=> Python基本數(shù)據(jù)類型

經(jīng)驗拾憶（純手工）=> Python三程

經(jīng)驗拾憶（純手工）=> Python黑魔法

經(jīng)驗拾憶（純手工）=> Python三器

發(fā)表評論

0條評論

Luosunce

男|高級講師

TA的文章

盤點UCloud優(yōu)惠活動及新老UCloud服務(wù)器優(yōu)惠政策「2021.8」

淺談前端開發(fā)規(guī)范

解決一行文本溢出隱藏點擊展開之后全部顯示并自動換行每行長度一致問題

CSS學習筆記之布局

virtual DOM是如何優(yōu)化性能的

生動形象解釋forEach、filter、map、some、every、find、findIndex

react+express項目

前端本地模糊搜索并高亮

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

經(jīng)驗拾憶（純手工）=> Python正則全解詳解

你好

你好

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！