摘要:以某個(gè)開(kāi)頭以某個(gè)結(jié)尾某個(gè)任意多次,大于等于讓某個(gè)取消貪婪匹配,可以理解為改為從左到右匹配到某個(gè)為止某個(gè)至少為一次,大于等于例某個(gè)出現(xiàn)到次等或者選或者有三種意思,中括號(hào)的任選一個(gè)就代表號(hào),不代表任意字符了例非
^ 以某個(gè)開(kāi)頭
$ 以某個(gè)結(jié)尾
* 某個(gè)任意多次,大于等于0
? 讓某個(gè)取消貪婪匹配,可以理解為改為從左到右匹配到某個(gè)為止
+ 某個(gè)至少為一次,大于等于1
{ }例,{2,5},某個(gè)出現(xiàn)2到5次.....{2},{2,}等
| 或者(a|b),選a或者b
[ ]有三種意思,1.[13567]中括號(hào)的任選一個(gè)-------2.[0-9],[a-z]-------3.[.]就代表.號(hào),不代表任意字符了
[^]例,[^1]非1
[a-z]同上
/s空格
/S非空格
/w代表[A-Za-z0-9_]
/W代表非[A-Za-z0-9_]
[u4E00-u9FA5]代表漢字
( )略
/d數(shù)字
import re line1 = "你出生在2016-09-01" line2 = "你出生在2016-9-1" line3 = "你出生在2016/09/01" line4 = "你出生在2016年9月1號(hào)" line5 = "你出生在2016-09" regex_str = "(你出生在d{4}(-|/|年)d{1,2}($|(月|/|-)d{1,2}($|號(hào))))" match_obj = re.match(regex_str, line5) if match_obj: print(match_obj.group(1)) #五個(gè)line都能匹配簡(jiǎn)單的爬蟲(chóng)
# -*- coding: utf-8 -*- # @Author: Lai import re import os import requests BASE_PATH = "E:/EW/" def get_block_link(url): html_obj = requests.get(url) reg = ".*?" link = re.findall(reg, html_obj.text)[0] links.append(link) return links def get_charterName_and_content(url): html_obj = requests.get(url) html_obj.encoding = "GBK" reg_content = "id="content">(.*?)