摘要:預告一下,下一篇你真的知道的字符串怎么用嗎將會展開介紹,敬請期待字符串序列是一種不可變序列,這意味著它不能像可變序列一能,進行就地修改。例如,在字符串的基礎上拼接,得到字符串,新的字符串是一個獨立的存在,它與基礎字符串并沒有關聯(lián)關系。
在《詳解Python拼接字符串的七種方式》這篇推文里,我提到過,字符串是程序員離不開的事情。后來,我看到了一個英文版本的說法:
There are few guarantees in life: death, taxes, and programmers needing to deal with strings.
它竟然把程序員處理字符串跟死亡大事并列了,可見這是多么命中注定......
回頭看其它文章,我發(fā)現(xiàn)這種說法得到了佐證,因為我在無意中已零零碎碎地提及了字符串的很多方面,例如:字符串讀寫文件、字符串打印、字符串不可變性、字符串Intern機制、字符串拼接、是否會取消字符串,等等。而這些,還只能算字符串面目的冰山一角。
既然如此,那干脆再多帶帶寫寫Python的字符串吧。這篇內(nèi)容可能會很基(li)礎(lun),并不是什么“騷操作”或“冷知識”,權當是一份溫故而求知新的筆記。
1 Python字符串是什么?根據(jù)維基百科定義:字符串是由零個或多個字符組成的有限序列。而在Python 3中,它有著更明確的意思:字符串是由Unicode碼點組成的不可變序列(Strings are immutable sequences of Unicode code points.)
字符串是一種序列,這意味著它具備序列類型都支持的操作:
# 以下的s、t皆表示序列,x表示元素 x in s # 若s包含x,返回True,否則返回False x not in s # 若s包含x,返回False,否則返回True s + t # 連接兩個序列 s * n # s復制n次 s[i] # s的索引第i項 s[i:j] # s切片從第i項到第j-1項 s[i:j:k] # s切片從第i項到第j-1項,間隔為k len(s) # s的長度 min(s) # s的最小元素 max(s) # s的最大元素 s.index(x) # x的索引位置 s.count(x) # s中出現(xiàn)x的總次數(shù)
字符串序列還具備一些特有的操作,限于篇幅,按下不表。預告一下,下一篇《你真的知道Python的字符串怎么用嗎? 》將會展開介紹,敬請期待......
字符串序列是一種不可變序列,這意味著它不能像可變序列一能,進行就地修改。例如,在字符串“Python”的基礎上拼接“Cat”,得到字符串“PythonCat”,新的字符串是一個獨立的存在,它與基礎字符串“Python”并沒有關聯(lián)關系。
basename = "Python" myname = basename + "Cat" id(basename) == id(myname) >>> False # 作為對比,列表能就地修改 baselist = ["Python"] baselist.append("Cat") print(baselist) >>> ["Python", "Cat"]
字符串這種序列與其它序列(如列表、元組)的不同之處在于,它的“元素”限定了只能是Unicode碼點。Unicode碼點是什么呢?簡單理解,就是用Unicode編碼的字符。那字符是什么呢?字符是人類書寫系統(tǒng)的各類符號,例如阿拉伯數(shù)字、拉丁字母、中文、日文、藏文、標點符號、控制符號(換行符、制表符等)、其它特殊符號(@#¥%$*等等)。那Unicode編碼又是什么呢?Unicode別名是萬國碼、國際碼,它是一種適用性最廣的、將書寫字符編碼為計算機數(shù)字的標準。
總所周知,在最底層的計算機硬件世界里,只有0和1。那么,怎么用這個二進制數(shù)字,來表示人類的文化性的字符呢?這些字符數(shù)量龐大,而且還在日益增長與變化,什么樣的編碼方案才是最靠譜的呢?
歷史上,人類創(chuàng)造了多種多樣的字符編碼標準,例如ASCII(1963年)編碼,以西歐語言的字符為主,它的缺點是只能編碼128個字符;例如GB2312(1981年),這是中國推出的編碼標準,在兼容ASCII標準的基礎上,還加入了對日文、俄文等字符的編碼,但缺點仍是編碼范圍有限,無法表示古漢語、繁體字及更多書寫系統(tǒng)的字符。
Unicode編碼標準于1991年推出,至今迭代到了第11版,已經(jīng)能夠編碼146個書寫系統(tǒng)的130000個字符,可謂是無所不包,真不愧是“國際碼”。Unicode編碼其實是一個二進制字符集,它建立了從書寫字符映射成唯一的數(shù)字字符的關系,但是,由于各系統(tǒng)平臺對字符的理解差異,以及出于節(jié)省空間的考慮,Unicode編碼還需要再做一次轉(zhuǎn)換,轉(zhuǎn)換后的新的二進制數(shù)字才能作為實際存儲及網(wǎng)絡傳輸時的編碼。
這種轉(zhuǎn)換方式被稱為Unicode轉(zhuǎn)換格式(Unicode Transformation Format,簡稱為UTF),它又細分為UTF-8、UTF-16、UTF-32等等方式。我們最常用的是UTF-8。為什么UTF-8最常用呢?因為它是可變長度的編碼方案,針對不同的字符使用不同的字節(jié)數(shù)來編碼,例如編碼英文字母時,只需要一個字節(jié)(8個比特),而編碼較復雜的漢字時,就會用到三個字節(jié)(24個比特)。
二進制的編碼串可以說是給機器閱讀的,為了方便,我們通常會將其轉(zhuǎn)化為十六進制,例如“中”字的Unicode編碼可以表示成0x4e2d ,其UTF-8編碼可以表示為0xe4b8ad ,"0x"用于開頭表示十六進制,這樣就簡潔多了。不過,UTF-8編碼的結果會被表示成以字節(jié)為單位的形式,例如“中”字用UTF-8編碼后的字節(jié)形式是xe4xb8xad 。
Python中為了區(qū)分Unicode編碼與字節(jié)碼,分別在開頭加“u”和“b”以示區(qū)分。在Python 3中,因為Unicode成了默認編碼格式,所以“u”被省略掉了。
# 字符轉(zhuǎn)Unicode編碼 # Python3中,開頭的u被省略,b不可省略 hex(ord("中")) >>> "0x4e2d" hex(ord("A")) >>> "0x41" # 字符轉(zhuǎn)UTF-8編碼(encode) "中".encode("utf-8") >>> b"xe4xb8xad" "A".encode("utf-8") >>> b"A" # Unicode編碼還原成字符 chr(0x4e2d) >>> "中" chr(0x41) >>> "A" # UTF-8編碼還原成字符(decode) b"xe4xb8xad".decode("utf-8") >>> "中" b"A".decode("utf-8") >>> "A"
總結一下,Python 3 中的字符串是由Unicode碼點組成的不可變序列,也即是,由采用Unicode標準編碼的字符組成的不可變序列。Unicode編碼將書寫系統(tǒng)的字符映射成了計算機二進制數(shù)字,為了方便,通常顯示為十六進制;在運算內(nèi)存中,字符以Unicode編碼呈現(xiàn),當寫入磁盤或用于網(wǎng)絡傳輸時,一般采用UTF-8方式編碼。
在Python 2中,因為歷史包袱,即Python先于Unicode編碼而誕生,所以其編碼問題是個大難題。幸好拋棄Python 2已成大勢所趨,所以我就不再對此做介紹或比對了。
2 Python字符串 VS Java字符串雖然不提縱向版本間的差異,但是,我想將Python字符串與其它編程語言做一個橫向?qū)Ρ?。我覺得這會是挺好玩的事。通過跨語言的比較,也許我們能加深對一個事物(字符串)的理解,還可能受到啟發(fā),得到對“編程語言”及“編程哲學”的領悟。
由于本人才疏學淺,本文就只對兩點皮毛特性作說明,歡迎讀者斧正和補充。
(1)字符串的定義方式
Python的字符串是內(nèi)置類型,所以使用起來很方便,有如下三種定義方式:
str_0 = """Python字符串可以寫在用三引號對內(nèi),表示多行字符串。 還可以寫在單引號對內(nèi), 當然還可以寫在雙引號對內(nèi)。 """ str_1 = "Python貓是一只貓" str_2 = "Python貓是一個微信公眾號"
Java的字符串不是內(nèi)置類型,它屬于對象,需要通過String類來創(chuàng)建。不過,正因為字符串太常用,所以Java特意預定義了一個字符串類String,使得程序員也可以像這樣來定義:String name = "Python貓"; ,而不必這樣寫:String name = new String("Python貓"); 。
Java的字符串只能寫在雙引號內(nèi),不具備Python中單雙引號混用的靈活。至于三引號的多行字符串表示法,Java程序員表示羨慕得要死,那種痛苦,受過折磨的人最懂。寫出來讓Python程序員開心一下:
String s = "Java 的多行字符串很麻煩, " + "既要使用換行符, " + "還需要使用加號拼接";
為什么Java不支持多行字符串、什么時候支持多行字符串?此類問題在Python程序員眼里,可能很費解,但它絕對能排進“Java程序員最希望能實現(xiàn)的特性”的前列。好不容易,官方有計劃在Java 11 實現(xiàn),但今年9月發(fā)布的Java 11 仍是沒有,現(xiàn)在改計劃到Java 12 了。
(2)單個字符與字符序列
Java中其實也有單引號的使用,用在char類型上,例如char c = "A"; 。char是一種內(nèi)置類型,表示單個用Unicode編碼的字符。Python中沒有char類型,字符串類型通吃一切。
前面說到,Python的字符串是一種字符序列,而Java的字符串并不是一種序列,要表示相近的概念的話,就得用到字符數(shù)組 或者 字符串數(shù)組 ,例如:
char[] a = { "a", "b", "c"}; String[] str = new String[]{"1","2","3"};
字符數(shù)組和字符串數(shù)組是一種序列,但并不是字符串,它們之間如果要相互轉(zhuǎn)換,還是挺麻煩的。另外,說是序列,但Java的序列操作絕對無法跟Python相比,別的不說,就上面提及的幾個基礎操作,試問Java能否實現(xiàn)、實現(xiàn)起來要花費多大力氣?
最后來個Ending,關于“Python字符串到底是什么”就說到這啦,希望對你有所幫助。下次,我再跟大家說說“Python字符串到底怎么用”,敬請期待。
本文原創(chuàng)并首發(fā)于微信公眾號【Python貓】,后臺回復“愛學習”,免費獲得20+本精選電子書。
拓展閱讀:
https://zh.wikipedia.org/wiki...
https://zh.wikipedia.org/wiki...
https://dwz.cn/AvWg1EDx
https://yiyibooks.cn/xx/pytho...
https://github.com/acmerfight...
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/45026.html
摘要:預告一下,下一篇你真的知道的字符串怎么用嗎將會展開介紹,敬請期待字符串序列是一種不可變序列,這意味著它不能像可變序列一能,進行就地修改。例如,在字符串的基礎上拼接,得到字符串,新的字符串是一個獨立的存在,它與基礎字符串并沒有關聯(lián)關系。 showImg(https://segmentfault.com/img/bVbjGGr?w=6016&h=4000); 在《詳解Python拼接字符串...
摘要:方法可接收兩個參數(shù),第一個參數(shù)是分隔符,即用來分隔字符串的字符,默認是所有的空字符,包括空格換行制表符等。拆分過程會消耗分隔符,所以拆分結果中不包含分隔符。 正如《你真的知道Python的字符串是什么嗎?》所寫,Python 中字符串是由 Uniocde 編碼的字符組成的不可變序列,它具備與其它序列共有的一些操作,例如判斷元素是否存在、拼接序列、切片操作、求長度、求最值、求元素的索引位...
閱讀 2326·2021-09-22 15:27
閱讀 3177·2021-09-03 10:32
閱讀 3506·2021-09-01 11:38
閱讀 2503·2019-08-30 15:56
閱讀 2220·2019-08-30 13:01
閱讀 1543·2019-08-29 12:13
閱讀 1425·2019-08-26 13:33
閱讀 899·2019-08-26 13:30