python中的編碼問題

forsigner 發(fā)布于2019-07-24 18:25 / 1246人閱讀

摘要：在控制臺執(zhí)行命令中文，可以將解釋為命令，中文，從而到到對象。中文以上的對象其實(shí)是，即字節(jié)碼，若終端是編碼的話，那么就是用的字節(jié)碼。那么這里的是什么呢默認(rèn)是，這正是錯(cuò)誤為什么報(bào)無法用解碼的原因中文將默認(rèn)編碼改為，即可。

問題

在平時(shí)工作中，遇到了這樣的錯(cuò)誤：

UnicodeDecodeError: "ascii" codec can"t decode byte

想必大家也都碰到過，很常見。于是決定對python的編碼做一個(gè)整理和學(xué)習(xí)。

基礎(chǔ)知識

在python2.x中，有兩種數(shù)據(jù)類型，unicode和str，這兩個(gè)都是basestring的子類

>>> a = "中"
>>> type(a)

>>> isinstance(a,basestring)
True
>>> a = u"中"
>>> type(a)

>>> isinstance(a,basestring)
True

兩者的區(qū)別，概括來講，str是字節(jié)串，由unicode經(jīng)過編碼(encode)后的字節(jié)組成的（好比與python3.x的byte）；unicode是對象，才是真正意義上的字符串，由字符組成

>>> a="中文"
>>> len(a)
6
>>> repr(a)
""xe4xb8xadxe6x96x87""
>>> b=u"中文"
>>> len(b)
2
>>> repr(b)
"u"u4e2du6587""

控制臺和腳本

在linux下的python控制臺執(zhí)行以下命令，所得的結(jié)果和執(zhí)行腳本是不同的

>>> a = u"中文"
>>> repr(a)
"u"xe4xb8xadxe6x96x87""
>>> b = unicode("中文","utf-8")b)
>>> repr(b)
"u"u4e2du6587""

可以看到，u"中文"初始化的對象a不是我們所期望的，那究竟是什么原因呢？
將python看成是一根管子，管子里頭處理的中間過程都是使用unicode的。入口處，全部轉(zhuǎn)成unicode；出口處，再轉(zhuǎn)成目標(biāo)編碼(當(dāng)然，有例外，處理邏輯中要用到具體編碼的情況)。
在控制臺執(zhí)行命令a = u"中文"，可以將解釋為命令，a = ‘中文’.decode(encode)，從而到到unicode對象a。那么這里的encode是什么呢？對于控制臺來說，就是標(biāo)準(zhǔn)輸入，即sys.stdin.encoding

>>> sys.stdin.encoding
"ISO-8859-1"

我的這邊控制臺默認(rèn)的編碼是ISO-8859-1，故a = u"中文" <=> a = "中文".decode("ISO-8859-1")
這里的"中文"是控制臺理解的，即使根據(jù)終端編碼方式編碼后的字節(jié)碼，對于utf-8編碼的終端，"中文"="xe4xb8xadxe6x96x87"

>>> a="中文".decode("ISO-8859-1") 
>>> repr(a)
"u"xe4xb8xadxe6x96x87""

那如何修改此編碼值呢，設(shè)置為什么呢？在linux環(huán)境中設(shè)置環(huán)境變量方法如下，具體設(shè)置什么只要與終端編碼方式一直即可

export PYTHONIOENCODING=UTF-8

總結(jié)

重新回到最初的那個(gè)問題，造成問題的原因是沒有搞清楚unicode和str的區(qū)別，將兩者進(jìn)行了混用。

>>> a = "中文"
>>> a.encode("gbk")
Traceback (most recent call last):
  File "", line 1, in 
UnicodeDecodeError: "ascii" codec can"t decode byte 0xe4 in position 0: ordinal not in range(128)

以上的對象a其實(shí)是str，即字節(jié)碼，若終端是utf-8編碼的話，那么a就是用utf-8 encode的字節(jié)碼。a.encode("gbk") 等價(jià)于a.decode(encoding).encode("gbk")，即先將字節(jié)碼解碼為unicode字符，然后再encode為字節(jié)碼。unicode對象作為中轉(zhuǎn)站。那么這里的encoding是什么呢？

>>> import sys
>>> sys.getdefaultencoding()
"ascii"

默認(rèn)是ascii，這正是錯(cuò)誤為什么報(bào)無法用ascii解碼的原因

>>> reload(sys)

>>> sys.setdefaultencoding("utf-8")
>>> a = "中文"
>>> repr(a)
""xe4xb8xadxe6x96x87""
>>> a.encode("gbk")
"xd6xd0xcexc4"

將默認(rèn)編碼改為utf-8，即可。不鼓勵對str使用encode方法，因?yàn)槠渲须[式對str進(jìn)行了解碼。decode只對str，encode只對unicode，一切decode/encode都顯示指定編碼方式。

GPU云服務(wù)器云服務(wù)器 url編碼問題 asp編碼問題服務(wù)器編碼問題 unicode編碼轉(zhuǎn)換問題

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/37739.html

發(fā)表評論

登陸后可評論

0條評論

forsigner

男|高級講師

我要關(guān)注我要私信

TA的文章

??Python【文件操作】保姆式教程??，計(jì)算機(jī)那么多文件，你繞不過這一關(guān)的！

閱讀 3622·2021-09-24 09:48
三星 SmartThings Find 注冊節(jié)點(diǎn)超 1 億

閱讀 1136·2021-09-10 10:51
web前端教程《每日一題》（1-99）完結(jié)

閱讀 3309·2019-08-30 13:03
CSS裝飾加載失敗的圖片（譯）

閱讀 3362·2019-08-30 12:51
選擇器特殊性排名

閱讀 1419·2019-08-30 11:22
一次搞懂CSS字體單位：px、em、rem和%

閱讀 1103·2019-08-29 18:38
前端每日實(shí)戰(zhàn)：133# 視頻演示如何用 CSS 和 GSAP 創(chuàng)作有多個(gè)關(guān)鍵幀的連續(xù)動畫

閱讀 2077·2019-08-29 16:41
前端每日實(shí)戰(zhàn)：37# 視頻演示如何把握好 transition 和 animation 的時(shí)序，創(chuàng)作

閱讀 3271·2019-08-29 15:32

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python中的編碼問題

相關(guān)文章

Python 與 Unicode

Python的中文編碼問題

Python入門-基本語法1

unicode之痛【精校版】

Python2.x 字符編碼終極指南

Python: 熟悉又陌生的字符編碼

發(fā)表評論

0條評論

forsigner

男|高級講師

TA的文章

??Python【文件操作】保姆式教程??，計(jì)算機(jī)那么多文件，你繞不過這一關(guān)的！

三星 SmartThings Find 注冊節(jié)點(diǎn)超 1 億

web前端教程《每日一題》（1-99）完結(jié)

CSS裝飾加載失敗的圖片（譯）

選擇器特殊性排名

一次搞懂CSS字體單位：px、em、rem和%

前端每日實(shí)戰(zhàn)：133# 視頻演示如何用 CSS 和 GSAP 創(chuàng)作有多個(gè)關(guān)鍵幀的連續(xù)動畫

前端每日實(shí)戰(zhàn)：37# 視頻演示如何把握好 transition 和 animation 的時(shí)序，創(chuàng)作

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

python中的編碼問題

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！