Python如何批量將csv文件編碼方式轉(zhuǎn)換為UTF-8？下面就給大家解答

89542767 發(fā)布于2022-11-16 14:52 / 1738人閱讀

　　csv文件其實(shí)就是單純的儲(chǔ)存文本數(shù)據(jù)的一種形式，那么，在日常的辦公當(dāng)中，要怎么做去提高其辦公的效率呢？比如，如何使用Python去批量的進(jìn)行處理文件，批量的處理csv文件，怎么將編碼轉(zhuǎn)換成為YTF-8的形式呢？下面給大家詳細(xì)的解答下。

　　當(dāng)我們用pandas是操作CSV文件的時(shí)候，常常會(huì)因?yàn)榫幋a問(wèn)題出現(xiàn)報(bào)錯(cuò)。

　　pandas_libsparsers.pyx in pandas._libs.parsers.TextReader.read()

　　pandas_libsparsers.pyx in pandas._libs.parsers.TextReader._read_low_memory()

　　pandas_libsparsers.pyx in pandas._libs.parsers.TextReader._read_rows()

　　pandas_libsparsers.pyx in pandas._libs.parsers.TextReader._convert_column_data()

　　pandas_libsparsers.pyx in pandas._libs.parsers.TextReader._convert_tokens()

　　pandas_libsparsers.pyx in pandas._libs.parsers.TextReader._convert_with_dtype()

　　pandas_libsparsers.pyx in pandas._libs.parsers.TextReader._string_convert()

　　pandas_libsparsers.pyx in pandas._libs.parsers._string_box_utf8()

　　UnicodeDecodeError:‘utf-8’codec can’t decode byte 0xca in position 0:invalid continuation byte

　　如果只是一兩個(gè)文件，我們可以用系統(tǒng)自帶記事本的方法進(jìn)行解決：

　　1、右鍵csv文件，打開(kāi)方式選擇“記事本”打開(kāi)；

　　2、ctrl+shift+s另存為，將編碼方式由ansi給改為UTF-8，點(diǎn)擊確定并替換原文件。

　　嫌麻煩的也可以在每次用pandas讀取csv前加入以下代碼。

　　import pandas as pd
　　filename='222.csv'
　　try:
　　df=pd.read_csv(filename,encoding='utf-8')
　　except BaseException:
　　df=pd.read_csv(filename,encoding='cp950')
　　df.to_csv(filename,encoding='utf-8',index=False)

　　如果很多類(lèi)似的ASCII的CSV文件就會(huì)非常頭痛，下面我們用Python編寫(xiě)一個(gè)程序，用來(lái)檢測(cè)并批量轉(zhuǎn)換csv文件的編碼方式。

　　需要指出的是，這個(gè)程序并不完善，運(yùn)行速度沒(méi)有進(jìn)行優(yōu)化，并且仍然有部分文件未能轉(zhuǎn)換成功，但足以應(yīng)對(duì)日常的分析需要。經(jīng)過(guò)嘗試，有幾種csv文件無(wú)法轉(zhuǎn)換：

　　1、包含圖片或者圖表的csv文件

　　2、原先的csv文件內(nèi)容就是亂碼的

　　覺(jué)得有幫助，那請(qǐng)給這篇文章點(diǎn)個(gè)贊吧??

　　演示效果：

　　代碼：

　　import os
　　from chardet.universaldetector import UniversalDetector
　　def get_filelist(path):
　　"""
　　獲取路徑下所有csv文件的路徑列表
　　"""
　　Filelist=[]
　　for home,dirs,files in os.walk(path):
　　for filename in files:
　　if".csv"in filename:
　　Filelist.append(os.path.join(home,filename))
　　return Filelist
　　def read_file(file):
　　"""
　　逐個(gè)讀取文件的內(nèi)容
　　"""
　　with open(file,'rb')as f:
　　return f.read()
　　def get_encode_info(file):
　　"""
　　逐個(gè)讀取文件的編碼方式
　　"""
　　with open(file,'rb')as f:
　　detector=UniversalDetector()
　　for line in f.readlines():
　　detector.feed(line)
　　if detector.done:
　　break
　　detector.close()
　　return detector.result['encoding']
　　def convert_encode2utf8(file,original_encode,des_encode):
　　"""
　　將文件的編碼方式轉(zhuǎn)換為utf-8，并寫(xiě)入原先的文件中。
　　"""
　　file_content=read_file(file)
　　file_decode=file_content.decode(original_encode,'ignore')
　　file_encode=file_decode.encode(des_encode)
　　with open(file,'wb')as f:
　　f.write(file_encode)
　　def read_and_convert(path):
　　"""
　　讀取文件并轉(zhuǎn)換
　　"""
　　Filelist=get_filelist(path=path)
　　fileNum=0
　　for filename in Filelist:
　　try:
　　file_content=read_file(filename)
　　encode_info=get_encode_info(filename)
　　if encode_info!='utf-8':
　　fileNum+=1
　　convert_encode2utf8(filename,encode_info,'utf-8')
　　print('成功轉(zhuǎn)換%s個(gè)文件%s'%(fileNum,filename))
　　except BaseException:
　　print(filename,'存在問(wèn)題，請(qǐng)檢查！')
　　def recheck_again(path):
　　"""
　　再次判斷文件是否為utf-8
　　"""
　　print('---------------------以下文件仍存在問(wèn)題---------------------')
　　Filelist=get_filelist(path)
　　for filename in Filelist:
　　encode_info_ch=get_encode_info(filename)
　　if encode_info_ch!='utf-8':
　　print(filename,'的編碼方式是：',encode_info_ch)
　　print('--------------------------檢查結(jié)束--------------------------')
　　if __name__=="__main__":
　　"""
　　輸入文件路徑
　　"""
　　path='./'
　　read_and_convert(path)
　　recheck_again(path)
　　print('轉(zhuǎn)換結(jié)束！')

　　核心代碼是：

　　def get_encode_info(file):
　　"""
　　逐個(gè)讀取文件的編碼方式
　　"""
　　with open(file,'rb')as f:
　　detector=UniversalDetector()
　　for line in f.readlines():
　　detector.feed(line)
　　if detector.done:
　　break
　　detector.close()
　　return detector.result['encoding']
　　Filelist=get_filelist(path=path)
　　fileNum=0
　　for filename in Filelist:
　　try:
　　file_content=read_file(filename)
　　encode_info=get_encode_info(filename)
　　if encode_info!='utf-8':
　　fileNum+=1
　　convert_encode2utf8(filename,encode_info,'utf-8')
　　print('成功轉(zhuǎn)換%s個(gè)文件%s'%(fileNum,filename))
　　except BaseException:
　　print(filename,'存在問(wèn)題，請(qǐng)檢查！')

　　總結(jié)

　　綜上所述，這篇文章就給大家介紹到這里了，希望可以給大家?guī)?lái)幫助。

云服務(wù)器 GPU云服務(wù)器 js將圖片轉(zhuǎn)換為數(shù)據(jù) 將公網(wǎng)ip轉(zhuǎn)換為eip python編碼方式 asp 文件編碼轉(zhuǎn)換

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/128366.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說(shuō)明

閱讀 923·2023-01-14 11:38
OpenMV與JSON編碼問(wèn)題分析

閱讀 895·2023-01-14 11:04
python中的特性管理模式詳細(xì)說(shuō)明

閱讀 756·2023-01-14 10:48
Python運(yùn)用fastapi完成上傳圖片

閱讀 2055·2023-01-14 10:34
pythonopencv圖象高通濾波和低通濾波器的范例編碼

閱讀 961·2023-01-14 10:24
Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

閱讀 840·2023-01-14 10:18
本文輕輕松松掌握Python中類(lèi)的繼承

閱讀 510·2023-01-14 10:09
python中wordcloud組裝方式總結(jié)

閱讀 588·2023-01-14 10:02

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python如何批量將csv文件編碼方式轉(zhuǎn)換為UTF-8？下面就給大家解答

相關(guān)文章

Python中CSV文件如何分割？下面給大家解答

**在python中讀取和寫(xiě)入CSV文件詳情**

**利用python合并csv文件的方式實(shí)例**

**怎么用python正則表達(dá)式提取/匹配中文漢字**

**mac中python讀取csv文件編碼報(bào)錯(cuò)問(wèn)題解決**

發(fā)表評(píng)論

0條評(píng)論

89542767

男|高級(jí)講師

TA的文章

pythontime控制模塊時(shí)間格式與結(jié)構(gòu)型時(shí)長(zhǎng)詳細(xì)說(shuō)明

OpenMV與JSON編碼問(wèn)題分析

python中的特性管理模式詳細(xì)說(shuō)明

Python運(yùn)用fastapi完成上傳圖片

pythonopencv圖象高通濾波和低通濾波器的范例編碼

Python根據(jù)ssh遠(yuǎn)程桌面連接Mysql數(shù)據(jù)庫(kù)操作

本文輕輕松松掌握Python中類(lèi)的繼承

python中wordcloud組裝方式總結(jié)

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python如何批量將csv文件編碼方式轉(zhuǎn)換為UTF-8？下面就給大家解答

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

Python如何批量將csv文件編碼方式轉(zhuǎn)換為UTF-8？下面就給大家解答