成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

收藏一個python通過uft8 編碼來提取中文的例子

baiy / 2746人閱讀

摘要:提取文件中所有中文小程序問題描述從一個文件中提取所有中文思路打開文件讀取文件中的文本用正則匹配獲取中文將其內(nèi)容寫入到另一個文本中實現(xiàn)設(shè)置默認(rèn)編碼只能是下面要求的判斷是否為中文的正則表達(dá)式打開要提取的文件打開要寫入的文件循環(huán)讀取要讀

Python-提取文件中所有中文小程序
問題描述:

   從一個txt文件中提取所有中文

思路:

打開txt文件
讀取txt文件中的文本
用正則匹配獲取中文
將其內(nèi)容寫入到另一個文本中
python實現(xiàn):
import imp
import sys
imp.reload(sys)
sys.setdefaultencoding("utf-8") #設(shè)置默認(rèn)編碼,只能是utf-8,下面u4e00-u9fa5要求的
import re
pchinese=re.compile("([u4e00-u9fa5]+)+?") #判斷是否為中文的正則表達(dá)式
f=open("data.txt") #打開要提取的文件
fw=open("getdata.txt","w")#打開要寫入的文件
for line in f.readlines(): #循環(huán)讀取要讀取文件的每一行
m=pchinese.findall(str(line)) #使用正則表達(dá)獲取中文
if m:
str1="|".join(m)#同行的中文用豎杠區(qū)分
str2=str(str1)
fw.write(str2)#寫入文件
fw.write(" ")#不同行的要換行
f.close()
fw.close()#打開的文件記得關(guān)閉哦!

未驗證    

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/37489.html

相關(guān)文章

  • 首次公開,整理12年積累博客收藏夾,零距離展示《收藏夾吃灰》系列博客

    摘要:時間永遠(yuǎn)都過得那么快,一晃從年注冊,到現(xiàn)在已經(jīng)過去了年那些被我藏在收藏夾吃灰的文章,已經(jīng)太多了,是時候把他們整理一下了。那是因為收藏夾太亂,橡皮擦給設(shè)置私密了,不收拾不好看呀。 ...

    Harriet666 評論0 收藏0
  • unicode和utf8 —— 從一個遍歷文件名腳本,談?wù)剬?em>Python2和Python3中字符編

    摘要:如果傳一個中文,下和下編碼分別是和,可以自己用打印看看文件中寫死,本來理解是跟這個文件本身編碼有關(guān),但文件編碼同樣是的情況下,下打印了的超集,下仍然是。 對編碼問題一直一知半解,之前也是得過且過,正好有個同事要我?guī)兔憘€腳本,涉及這方面的問題,借這個契機研究了一下. 先貼幾篇比較好的: 1.阮老師的上古文章(07年…),雖然古老但對理解幫助很大,從最基礎(chǔ)講起,邏輯清晰易理解. (ps:...

    寵來也 評論0 收藏0
  • BeautifulSoup:網(wǎng)頁解析利器上手簡介

    摘要:文檔寫得很清楚,也有中文版,你只要看了最初的一小部分,就可以在代碼中派上用場了。 關(guān)于爬蟲的案例和方法,我們已講過許多。不過在以往的文章中,大多是關(guān)注在 如何把網(wǎng)頁上的內(nèi)容抓取下來 。今天我們來分享下,當(dāng)你已經(jīng)把內(nèi)容爬下來之后, 如何提取出其中你需要的具體信息 。 網(wǎng)頁被抓取下來,通常就是 str 字符串類型的對象 ,要從里面尋找信息,最直接的想法就是直接通過字符串的 find 方法 ...

    Carl 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<