scrapy學(xué)習(xí)之路1.1(正則表達(dá)式)

AlphaGooo 發(fā)布于2019-07-30 15:20 / 1916人閱讀

摘要：以某個(gè)開(kāi)頭以某個(gè)結(jié)尾某個(gè)任意多次，大于等于讓某個(gè)取消貪婪匹配，可以理解為改為從左到右匹配到某個(gè)為止某個(gè)至少為一次，大于等于例某個(gè)出現(xiàn)到次等或者選或者有三種意思，中括號(hào)的任選一個(gè)就代表號(hào)，不代表任意字符了例非

^ 以某個(gè)開(kāi)頭

$ 以某個(gè)結(jié)尾

* 某個(gè)任意多次，大于等于0

? 讓某個(gè)取消貪婪匹配，可以理解為改為從左到右匹配到某個(gè)為止

+ 某個(gè)至少為一次，大于等于1

{ }例,{2,5},某個(gè)出現(xiàn)2到5次.....{2},{2,}等

| 或者(a|b),選a或者b

[ ]有三種意思，1.[13567]中括號(hào)的任選一個(gè)-------2.[0-9],[a-z]-------3.[.]就代表.號(hào)，不代表任意字符了

[^]例,[^1]非1

[a-z]同上

/s空格

/S非空格

/w代表[A-Za-z0-9_]

/W代表非[A-Za-z0-9_]

[u4E00-u9FA5]代表漢字

( )略

/d數(shù)字

import re
line1 = "你出生在2016-09-01"
line2 = "你出生在2016-9-1"
line3 = "你出生在2016/09/01"
line4 = "你出生在2016年9月1號(hào)"
line5 = "你出生在2016-09"

regex_str = "(你出生在d{4}(-|/|年)d{1,2}($|(月|/|-)d{1,2}($|號(hào))))"
match_obj = re.match(regex_str, line5)
if match_obj:
    print(match_obj.group(1))
    
#五個(gè)line都能匹配

簡(jiǎn)單的爬蟲(chóng)

# -*- coding: utf-8 -*-
# @Author: Lai

import re
import os
import requests

BASE_PATH = "E:/EW/"


def get_block_link(url):
    html_obj = requests.get(url)
    reg = ".*?"
        link = re.findall(reg, html_obj.text)[0]
        links.append(link)
    return links


def get_charterName_and_content(url):
    html_obj = requests.get(url)
    html_obj.encoding = "GBK"
    reg_content = "id="content">(.*?)

閱讀需要支付1元查看

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

scrapy學(xué)習(xí)之路1.1(正則表達(dá)式)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！