摘要:我們需要注意的是只有在數(shù)據(jù)庫服務(wù)器端與客戶端的編碼一致的情況下我們才能正常的顯示非編碼而在中默認會將查詢的字符串強制將其轉(zhuǎn)換為。而正常的情況應(yīng)該指定其編碼為中國而設(shè)定就是相當于修改上述的編碼為。
近期在項目中,要對1張100多萬條記錄的表進行查詢,然后進行一些數(shù)據(jù)的統(tǒng)計,但是在這個過程中,發(fā)現(xiàn)只查詢出來幾條數(shù)據(jù)就出現(xiàn)了UnicodeDecodeError了。
在這里,我們使用sqlalchemy庫進行查詢,其內(nèi)部還是Cx_Oracle來進行對應(yīng)的操作,使用的Python版本為3.5.0,宿主系統(tǒng)為Windows 2008 Server,然后進行類似如下的操作:
from sqlalchemy import create_engine engine = create_engine("oracle://demo:[email protected]/TEST") conn = engine.connect() sql = "select t.type from TS t" result = conn.execute(sql) for row in result: print(row["type"])
在這里,我們首先創(chuàng)建1個到數(shù)據(jù)庫的連接,然后進行對應(yīng)的查詢操作。很不幸的是,只查詢不到10條記錄就出現(xiàn)了1個UnicodeDecodeError錯誤了。
本來以為是數(shù)據(jù)庫的服務(wù)器編碼問題,因此在create_engine函數(shù)中追加了encoding參數(shù),將其更改為:
engine = create_engine("oracle://demo:[email protected]/TEST",encoding="UTF-8")
而另外1種可用的方式直接在連接路徑中指定編碼,類似如下:
engine = create_engine("oracle://demo:[email protected]/TEST?charset=utf-8")
但是問題還是沒有解決。在網(wǎng)上搜索了一下都沒有找到適應(yīng)的解決方案,突然想起來之前在使用Mysql數(shù)據(jù)庫(個人喜歡Postgresql多一些)的時候,出現(xiàn)亂碼的時候,我們常常會進行如下的操作:
set names gbk;
我們通過這種方式設(shè)置客戶端的編碼,而不是服務(wù)器端的編碼,來解決終端下出現(xiàn)亂碼的情況(由于Postgresql默認數(shù)據(jù)庫就是UTF-8因此出現(xiàn)亂碼的可能性較低)。而另外在Linux下安裝Oracle的客戶端時,設(shè)置了1個NLS_LANG的環(huán)境變量,詳情可以參考Ubuntu14.04安裝Oracle Instant Client這篇文章,當然這篇文章有一些細節(jié)的東西沒有介紹。
一般情況下,我們在cmd中進行如下的設(shè)置:
setenv NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBK
我們指定Oracle消息使用的語言為簡體中文,而客戶端的字符集為GBK。
另外,我們還可以執(zhí)行如下的語句來確保上述的操作是正確的:
SELECT * FROM v$nls_parameters;
由于上述數(shù)據(jù)庫服務(wù)器是部署在Windows上的,因此其結(jié)果自然為GBK,因此如果我們客戶端使用UTF8字符集進行解碼,自然而言會出現(xiàn)解碼的錯誤。
我們需要注意的是,只有在數(shù)據(jù)庫服務(wù)器端與客戶端的編碼一致的情況下,我們才能正常的顯示非ASCII編碼,而在sqlalchemy中默認會將查詢的字符串強制將其轉(zhuǎn)換為Unicode。因此類似Python3的如下過程:
>>> a="中國".encode("gbk") >>> a b"xd6xd0xb9xfa"
而在sqlalchemy中由于強制進行編碼轉(zhuǎn)換,因此類似執(zhí)行如下的過程:
>>> a.decode("utf-8") Traceback (most recent call last): File "", line 1, in UnicodeDecodeError: "utf-8" codec can"t decode byte 0xd6 in position 0: invalid continuation byte
因此就出現(xiàn)上述的問題了。而正常的情況應(yīng)該指定其編碼為GBK:
>>> a.decode("gbk") "中國"
而設(shè)定NLS_LANG就是相當于修改上述的編碼為GBK。
參考文章:
http://docs.oracle.com/cd/E12...
docs.sqlalchemy.org/en/latest/core/engines.html
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/38438.html
摘要:使用的方法需要對格式進行控制,通過流獲取這幾個字段值不簡潔個人觀點。優(yōu)點是能夠使用的方法直接訪問文件,不需要考慮打開關(guān)閉連接,并且通過流向文件中寫入還挺好用的。要進行多個查詢,個人建議使用完后將結(jié)果保留再關(guān)閉,多次查詢重復(fù)該操作。 問題 使用python操作oracle數(shù)據(jù)庫,獲取表的某幾個字段作為變量值使用。 使用Popen+sqlplus的方法需要對格式進行控制,通過流獲取這幾個字...
摘要:使用中文替代中文中文編碼中文編碼中有以上兩種聲明字符串變量的方式,它們的主要區(qū)別是編碼格式的不同,其中,的編碼格式和文件聲明的編碼格式一致,而的編碼格式則是。 字符串是Python中最常用的數(shù)據(jù)類型,而且很多時候你會用到一些不屬于標準ASCII字符集的字符,這時候代碼就很可能拋出UnicodeDecodeError: ascii codec cant decode byte 0xc4 ...
閱讀 1664·2019-08-30 13:04
閱讀 2217·2019-08-30 12:59
閱讀 1777·2019-08-29 18:34
閱讀 1874·2019-08-29 17:31
閱讀 1266·2019-08-29 15:42
閱讀 3545·2019-08-29 15:37
閱讀 2866·2019-08-29 13:45
閱讀 2780·2019-08-26 13:57