存儲 dict 的元素前是計算 key 的 hash 值？

dkzwm 發(fā)布于2019-07-30 17:49 / 1673人閱讀

摘要：大多數(shù)情況下，相比計算這些不同對象類型的值，直接計算對象所在內(nèi)存地址整數(shù)的值性能更高，這也就是為什么不是計算的值，而是計算所在內(nèi)存地址的值閱讀更多手動漢化的過程模擬登陸字符圖像識別數(shù)字字母混合爬取貓眼實時票房數(shù)據(jù)

dict 的高性能與其存儲方式是分不開的，我們知道 dict 的存儲是基于哈希表（又稱散列表），需要計算 hash 值，那么是計算誰的 hash 值呢？是像別人說的：存儲 dict 元素前計算 key 的 hash 值？

驗證

這里先創(chuàng)建個字典

>>> my_dict = {"a": "apple", "b": "banana"}

由于哈希表是一塊連續(xù)的內(nèi)存空間（數(shù)組），在不考慮 hash 值沖突的情況下，如果計算的是 key 的 hash 值，那么："a" 的 hash 值與 "b" 的 hash 值之間的差值與 "a" 的內(nèi)存地址與 "b" 的內(nèi)存地址之間的差值（可理解為內(nèi)存地址里的距離）相等才對，也就是說以下的等式成立才對

hash("a") - hash("b") == id("a") - id("b")

但事實上面等式返回的是 False

>>> hash("a") - hash("b") == id("a") - id("b")
False

先看看其中各項的具體值是多少

>>> hash("a")
-7336862871683211644
>>> hash("b")
3607308758832868774
>>> id("a")
1290454097736
>>> id("b")
1290454096056

>>> id("a") - id("b")
1680
>>> hash("a") - hash("b")
-10944171630516080418

可以很明顯得看到差距還是挺大的
這說明計算的不是 key 的 hash 值（這種說法不夠嚴(yán)謹(jǐn)），那計算的是什么呢？

計算的是 key 所在內(nèi)存地址的 hash 值

在不考慮 hash 沖突的情況下， "a" 所在內(nèi)存地址的 hash 值與 "b" 所在內(nèi)存地址的 hash 值之間的差值和 "a" 的內(nèi)存地址與 "b" 的內(nèi)存地址之間的差值相等，也就是說以下的等式成立才對

hash(id("a")) - hash(id("b")) == id("a") - id("b")

>>> hash(id("a")) - hash(id("b")) == id("a") - id("b")
True
>>> id("a") - id("b")
1680
>>> hash(id("a")) - hash(id("b"))
1680

下面再多驗證幾個

>>> my_dict["c"] = "cherry"
>>> hash(id("b")) - hash(id("c")) == id("b") - id("c")
True
>>> id("b") - id("c")
791760
>>> hash(id("b")) - hash(id("c"))
791760

>>> a["d"] = "date"
>>> hash(id("d")) - hash(id("c")) == id("d") - id("c")
True
>>> id("d") - id("c")
1400
>>> hash(id("d")) - hash(id("c"))
1400

到這里就可以證明上面的結(jié)論

為何計算的是 key 所在的內(nèi)存地址的 hash 值？

比如上面的"a"（1 個字符）明顯比其所在的內(nèi)存地址 1290454097736（13 個字符）要短。短的計算不是更快嗎？
記住一句話：Python 中一切皆對象，"a"是個 str 對象，1290454097736 是個 int 對象

>>> type("a")

>>> type(id("a"))

一個對象里不是僅僅存儲對應(yīng)值，它還有很多屬性（含方法），來看看誰的屬性多

>>> len(dir("a"))
77
>>> len(dir(id("a")))
70

str 對象比 int 對象多 7 個屬性

它們都有個叫 __sizeof__() 的魔法方法，用于獲取當(dāng)前對象所占用的內(nèi)存空間大?。ㄗ止?jié)）

>>> id("a").__sizeof__()
32
>>> "a".__sizeof__()
50

從上面可以發(fā)現(xiàn)：雖然 "a" 看起來只有 1 個字符，但其占用的內(nèi)存空間要大于其內(nèi)存地址 id("a") 所占用的空間

當(dāng)然這不是主要原因，Python 解釋器會將其轉(zhuǎn)換為適當(dāng)?shù)臄?shù)據(jù)類型再進行 hash 計算

不過，dict 的 key 不僅僅可以是 str 對象，也可以是 int、bytes、fromzenset 等這些可哈希(hashable)對象，可哈希對象都是不可變(immutable)對象（注意：反之不一定成立，如 tuple），不可變對象內(nèi)存地址不變。大多數(shù)情況下，相比計算這些不同對象類型的 hash 值，直接計算對象所在內(nèi)存地址（整數(shù)）的 hash 值性能更高，這也就是為什么不是計算 key 的 hash 值，而是計算 key 所在內(nèi)存地址的 hash 值

閱讀更多

手動漢化 PyCharm 的過程

模擬登陸Github

字符圖像識別——數(shù)字字母混合

爬取貓眼實時票房數(shù)據(jù)

GPU云服務(wù)器云服務(wù)器獲取字符串hash值最快的hash表算法 python的key linux的key

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/42440.html

發(fā)表評論

登陸后可評論

0條評論

dkzwm

男|高級講師

我要關(guān)注我要私信

TA的文章

OneTechCloud：全場9折起,美國CN2 GIA高防VPS月付31元起

閱讀 925·2021-10-18 13:32
巴法云 mixly 擴展庫

閱讀 3527·2021-09-30 09:47
PostgreSQL 10.18軟件安裝詳細教程（地圖工具篇.7）

閱讀 2168·2021-09-23 11:21
【Python】逆向JavaScript，深度解析Q群成員數(shù)據(jù)的采集與郵件的來源，閱讀完后你就明白了

閱讀 1893·2021-09-09 09:34
柵格化系統(tǒng)的原理以及實現(xiàn)

閱讀 3493·2019-08-30 15:43
css-tick

閱讀 1533·2019-08-30 11:07
對于頁面適配，你應(yīng)該使用px還是rem

閱讀 1072·2019-08-29 16:14
web開發(fā)小記1：谷歌字體

閱讀 737·2019-08-29 11:06

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

存儲 dict 的元素前是計算 key 的 hash 值？

相關(guān)文章

**糾正<存儲 dict 的元素前是計算 key 的 hash 值？>**

Python中的字典和集合

五個步驟教你理清Redis與Memcached的區(qū)別

手動漢化 PyCharm 的過程

發(fā)表評論

0條評論

dkzwm

男|高級講師

TA的文章

OneTechCloud：全場9折起,美國CN2 GIA高防VPS月付31元起

巴法云 mixly 擴展庫

PostgreSQL 10.18軟件安裝詳細教程（地圖工具篇.7）

【Python】逆向JavaScript，深度解析Q群成員數(shù)據(jù)的采集與郵件的來源，閱讀完后你就明白了

柵格化系統(tǒng)的原理以及實現(xiàn)

css-tick

對于頁面適配，你應(yīng)該使用px還是rem

web開發(fā)小記1：谷歌字體

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

存儲 dict 的元素前是計算 key 的 hash 值？

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

存儲 dict 的元素前是計算 key 的 hash 值？