成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

[PHP內(nèi)核探索]PHP中的哈希表

Yuanf / 3468人閱讀

摘要:的介紹哈希表是實現(xiàn)字典操作的一種有效數(shù)據(jù)結(jié)構(gòu)。因此,實現(xiàn)一個好的哈希表的關(guān)鍵就是一個好的哈希函數(shù)和處理哈希沖突的方法。取而代之的是通過應(yīng)用哈希表的,然后只取哈希表的低位。由上面可以看到,的哈希表實現(xiàn)相當(dāng)復(fù)雜。

在PHP內(nèi)核中,其中一個很重要的數(shù)據(jù)結(jié)構(gòu)就是HashTable。我們常用的數(shù)組,在內(nèi)核中就是用HashTable來實現(xiàn)。那么,PHP的HashTable是怎么實現(xiàn)的呢?最近在看HashTable的數(shù)據(jù)結(jié)構(gòu),但是算法書籍里面沒有具體的實現(xiàn)算法,剛好最近也在閱讀PHP的源碼,于是參考PHP的HashTable的實現(xiàn),自己實現(xiàn)了一個簡易版的HashTable,總結(jié)了一些心得,下面給大家分享一下。

筆者github上有一個簡易版的HashTable的實現(xiàn):HashTable實現(xiàn)

另外,我在github有對PHP源碼更詳細(xì)的注解。感興趣的可以圍觀一下,給個star。PHP5.4源碼注解??梢酝ㄟ^commit記錄查看已添加的注解。

HashTable的介紹

哈希表是實現(xiàn)字典操作的一種有效數(shù)據(jù)結(jié)構(gòu)。

定義

簡單地說,HashTable(哈希表)就是一種鍵值對的數(shù)據(jù)結(jié)構(gòu)。支持插入,查找,刪除等操作。在一些合理的假設(shè)下,在哈希表中的所有操作的時間復(fù)雜度是O(1)(對相關(guān)證明感興趣的可以自行查閱)。

實現(xiàn)哈希表的關(guān)鍵

在哈希表中,不是使用關(guān)鍵字做下標(biāo),而是通過哈希函數(shù)計算出key的哈希值作為下標(biāo),然后查找/刪除時再計算出key的哈希值,從而快速定位元素保存的位置。

在一個哈希表中,不同的關(guān)鍵字可能會計算得到相同的哈希值,這叫做“哈希沖突”,就是處理兩個或多個鍵的哈希值相同的情況。解決哈希沖突的方法有很多,開放尋址法,拉鏈法等等。

因此,實現(xiàn)一個好的哈希表的關(guān)鍵就是一個好的哈希函數(shù)和處理哈希沖突的方法。

Hash函數(shù)

判斷一個哈希算法的好壞有以下四個定義:

一致性,等價的鍵必然產(chǎn)生相等的哈希值;

高效性,計算簡便;

均勻性,均勻地對所有的鍵進(jìn)行哈希。

哈希函數(shù)建立了關(guān)鍵值與哈希值的對應(yīng)關(guān)系,即:h = hash_func(key)。對應(yīng)關(guān)系見下圖:

設(shè)計一個完美的哈希函數(shù)就交由專家去做吧,我們只管用已有的較成熟的哈希函數(shù)就好了。PHP內(nèi)核使用的哈希函數(shù)是time33函數(shù),又叫DJBX33A,其實現(xiàn)如下:

static inline ulong zend_inline_hash_func(const char *arKey, uint nKeyLength)
{
         register ulong hash = 5381;

        /* variant with the hash unrolled eight times */
        for (; nKeyLength >= 8; nKeyLength -= 8) {
            hash = ((hash << 5) + hash) + *arKey++;
            hash = ((hash << 5) + hash) + *arKey++;
            hash = ((hash << 5) + hash) + *arKey++;
            hash = ((hash << 5) + hash) + *arKey++;
            hash = ((hash << 5) + hash) + *arKey++;
            hash = ((hash << 5) + hash) + *arKey++;
            hash = ((hash << 5) + hash) + *arKey++;
            hash = ((hash << 5) + hash) + *arKey++;
    }

    switch (nKeyLength) {
        case 7: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */
        case 6: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */
        case 5: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */
        case 4: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */
        case 3: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */
        case 2: hash = ((hash << 5) + hash) + *arKey++; /* fallthrough... */
        case 1: hash = ((hash << 5) + hash) + *arKey++; break;
        case 0: break;
        EMPTY_SWITCH_DEFAULT_CASE()
    }
    return hash;
}

注:函數(shù)使用了一個8次循環(huán)+switch來實現(xiàn),是對for循環(huán)的優(yōu)化,減少循環(huán)的運行次數(shù),然后在switch里面執(zhí)行剩下的沒有遍歷到的元素。

拉鏈法

將所有具有相同哈希值的元素都保存在一條鏈表中的方法叫拉鏈法。查找的時候通過先計算key對應(yīng)的哈希值,然后根據(jù)哈希值找到對應(yīng)的鏈表,最后沿著鏈表順序查找相應(yīng)的值。
具體保存后的結(jié)構(gòu)圖如下:

PHP的HashTable結(jié)構(gòu)

簡單地介紹了哈希表的數(shù)據(jù)結(jié)構(gòu)之后,繼續(xù)看看PHP中是如何實現(xiàn)哈希表的。

(圖片源自網(wǎng)絡(luò),侵權(quán)即刪)

PHP內(nèi)核hashtable的定義:
typedef struct _hashtable {
          uint nTableSize;
          uint nTableMask;
          uint nNumOfElements;
          ulong nNextFreeElement;
          Bucket *pInternalPointer;
          Bucket *pListHead;
          Bucket *pListTail; 
          Bucket **arBuckets;
          dtor_func_t pDestructor;
          zend_bool persistent;
          unsigned char nApplyCount;
          zend_bool bApplyProtection;
          #if ZEND_DEBUG
               int inconsistent;
          #endif
} HashTable;

nTableSize,HashTable的大小,以2的倍數(shù)增長

nTableMask,用在與哈希值做與運算獲得該哈希值的索引取值,arBuckets初始化后永遠(yuǎn)是nTableSize-1

nNumOfElements,HashTable當(dāng)前擁有的元素個數(shù),count函數(shù)直接返回這個值

nNextFreeElement,表示數(shù)字鍵值數(shù)組中下一個數(shù)字索引的位置

pInternalPointer,內(nèi)部指針,指向當(dāng)前成員,用于遍歷元素

pListHead,指向HashTable的第一個元素,也是數(shù)組的第一個元素

pListTail,指向HashTable的最后一個元素,也是數(shù)組的最后一個元素。與上面的指針結(jié)合,在遍歷數(shù)組時非常方便,比如reset和endAPI

arBuckets,包含bucket組成的雙向鏈表的數(shù)組,索引用key的哈希值和nTableMask做與運算生成

pDestructor,刪除哈希表中的元素使用的析構(gòu)函數(shù)

persistent,標(biāo)識內(nèi)存分配函數(shù),如果是TRUE,則使用操作系統(tǒng)本身的內(nèi)存分配函數(shù),否則使用PHP的內(nèi)存分配函數(shù)

nApplyCount,保存當(dāng)前bucket被遞歸訪問的次數(shù),防止多次遞歸

bApplyProtection,標(biāo)識哈希表是否要使用遞歸保護(hù),默認(rèn)是1,要使用

舉一個哈希與mask結(jié)合的例子:

例如,”foo”真正的哈希值(使用DJBX33A哈希函數(shù))是193491849。如果我們現(xiàn)在有64容量的哈希表,我們明顯不能使用它作為數(shù)組的下標(biāo)。取而代之的是通過應(yīng)用哈希表的mask,然后只取哈希表的低位。

hash           |        193491849  |     0b1011100010000111001110001001
& mask         | &             63  | &   0b0000000000000000000000111111
----------------------------------------------------------------------
= index        | = 9               | =   0b0000000000000000000000001001

因此,在哈希表中,foo是保存在arBuckets中下標(biāo)為9的bucket向量中。

bucket結(jié)構(gòu)體的定義
typedef struct bucket {
     ulong h;
     uint nKeyLength;
     void *pData;
     void *pDataPtr;
     struct bucket *pListNext;
     struct bucket *pListLast;
     struct bucket *pNext;
     struct bucket *pLast;
     const char *arKey;
} Bucket;

h,哈希值(或數(shù)字鍵值的key

nKeyLength,key的長度

pData,指向數(shù)據(jù)的指針

pDataPtr,指針數(shù)據(jù)

pListNext,指向HashTable中的arBuckets鏈表中的下一個元素

pListLast,指向HashTable中的arBuckets鏈表中的上一個元素

pNext,指向具有相同hash值的bucket鏈表中的下一個元素

pLast,指向具有相同hash值的bucket鏈表中的上一個元素

arKey,key的名稱

PHP中的HashTable是采用了向量加雙向鏈表的實現(xiàn)方式,向量在arBuckets變量保存,向量包含多個bucket的指針,每個指針指向由多個bucket組成的雙向鏈表,新元素的加入使用前插法,即新元素總是在bucket的第一個位置。由上面可以看到,PHP的哈希表實現(xiàn)相當(dāng)復(fù)雜。這是它使用超靈活的數(shù)組類型要付出的代價。

一個PHP中的HashTable的示例圖如下所示:

HashTable相關(guān)API

zend_hash_init

zend_hash_add_or_update

zend_hash_find

zend_hash_del_key_or_index

zend_hash_init

函數(shù)執(zhí)行步驟

設(shè)置哈希表大小

設(shè)置結(jié)構(gòu)體其他成員變量的初始值 (包括釋放內(nèi)存用的析構(gòu)函數(shù)pDescructor)

詳細(xì)代碼注解點擊:zend_hash_init源碼

注:

1、pHashFunction在此處并沒有用到,php的哈希函數(shù)使用的是內(nèi)部的zend_inline_hash_func

2、zend_hash_init執(zhí)行之后并沒有真正地為arBuckets分配內(nèi)存和計算出nTableMask的大小,真正分配內(nèi)存和計算nTableMask是在插入元素時進(jìn)行CHECK_INIT檢查初始化時進(jìn)行。

zend_hash_add_or_update 函數(shù)執(zhí)行步驟

檢查鍵的長度

檢查初始化

計算哈希值和下標(biāo)

遍歷哈希值所在的bucket,如果找到相同的key且值需要更新,則更新數(shù)據(jù),否則繼續(xù)指向bucket的下一個元素,直到指向bucket的最后一個位置

為新加入的元素分配bucket,設(shè)置新的bucket的屬性值,然后添加到哈希表中

如果哈希表空間滿了,則重新調(diào)整哈希表的大小

函數(shù)執(zhí)行流程圖

CONNECT_TO_BUCKET_DLLIST是將新元素添加到具有相同hash值的bucket鏈表。

CONNECT_TO_GLOBAL_DLLIST是將新元素添加到HashTable的雙向鏈表。

詳細(xì)代碼和注解請點擊:zend_hash_add_or_update代碼注解。

zend_hash_find 函數(shù)執(zhí)行步驟

計算哈希值和下標(biāo)

遍歷哈希值所在的bucket,如果找到key所在的bucket,則返回值,否則,指向下一個bucket,直到指向bucket鏈表中的最后一個位置

詳細(xì)代碼和注解請點擊:zend_hash_find代碼注解。

zend_hash_del_key_or_index 函數(shù)執(zhí)行步驟

計算key的哈希值和下標(biāo)

遍歷哈希值所在的bucket,如果找到key所在的bucket,則進(jìn)行第三步,否則,指向下一個bucket,直到指向bucket鏈表中的最后一個位置

如果要刪除的是第一個元素,直接將arBucket[nIndex]指向第二個元素;其余的操作是將當(dāng)前指針的last的next執(zhí)行當(dāng)前的next

調(diào)整相關(guān)指針

釋放數(shù)據(jù)內(nèi)存和bucket結(jié)構(gòu)體內(nèi)存

詳細(xì)代碼和注解請點擊:zend_hash_del_key_or_index代碼注解。

性能分析

PHP的哈希表的優(yōu)點:PHP的HashTable為數(shù)組的操作提供了很大的方便,無論是數(shù)組的創(chuàng)建和新增元素或刪除元素等操作,哈希表都提供了很好的性能,但其不足在數(shù)據(jù)量大的時候比較明顯,從時間復(fù)雜度和空間復(fù)雜度看看其不足。

不足如下:

保存數(shù)據(jù)的結(jié)構(gòu)體zval需要多帶帶分配內(nèi)存,需要管理這個額外的內(nèi)存,每個zval占用了16bytes的內(nèi)存;

在新增bucket時,bucket也是額外分配,也需要16bytes的內(nèi)存;

為了能進(jìn)行順序遍歷,使用雙向鏈表連接整個HashTable,多出了很多的指針,每個指針也要16bytes的內(nèi)存;

在遍歷時,如果元素位于bucket鏈表的尾部,也需要遍歷完整個bucket鏈表才能找到所要查找的值

PHP的HashTable的不足主要是其雙向鏈表多出的指針及zval和bucket需要額外分配內(nèi)存,因此導(dǎo)致占用了很多內(nèi)存空間及查找時多出了不少時間的消耗。

后續(xù)

上面提到的不足,在PHP7中都很好地解決了,PHP7對內(nèi)核中的數(shù)據(jù)結(jié)構(gòu)做了一個大改造,使得PHP的效率高了很多,因此,推薦PHP開發(fā)者都將開發(fā)和部署版本更新吧??纯聪旅孢@段PHP代碼:


上面這個demo是有多個hash沖突時和無沖突時的時間消耗比較。筆者在PHP5.4下運行這段代碼,結(jié)果如下

插入 65536 個惡意的元素需要 43.72204709053 秒

插入 65536 個普通元素需要 0.009843111038208 秒

而在PHP7上運行的結(jié)果:

插入 65536 個惡意的元素需要 4.4028408527374 秒

插入 65536 個普通元素需要 0.0018510818481445 秒

可見不論在有沖突和無沖突的數(shù)組操作,PHP7的性能都提升了不少,當(dāng)然,有沖突的性能提升更為明顯。至于為什么PHP7的性能提高了這么多,值得繼續(xù)深究。

最后,筆者github上有一個簡易版的HashTable的實現(xiàn):HashTable實現(xiàn)

另外,我在github有對PHP源碼更詳細(xì)的注解。感興趣的可以圍觀一下,給個star。PHP5.4源碼注解。可以通過commit記錄查看已添加的注解。

原創(chuàng)文章,文筆有限,才疏學(xué)淺,文中若有不正之處,萬望告知。

如果本文對你有幫助,請點下推薦吧,謝謝^_^

參考文章:

PHP數(shù)組的Hash沖突實例

Understanding PHP"s internal array implementation (PHP"s Source Code for PHP Developers - Part 4)

PHP"s new hashtable implementation

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/21747.html

相關(guān)文章

  • php中的哈希碰撞以及防御

    php中的哈希表 php中的變量是以符號表的方式進(jìn)行存儲的,實際上也是個HashTable,哈希表是通過特定的哈希算法將索引轉(zhuǎn)換成特定的index然后映射到對應(yīng)的槽中,然后采用拉鏈法,在一個槽中使用鏈表將數(shù)據(jù)進(jìn)行存儲,鏈表的時間復(fù)雜度為O(n)。 php中的hashtable的結(jié)構(gòu)定義在Zend/zend_hash.h文件中: //保存數(shù)據(jù)的單鏈表結(jié)構(gòu) typedef struct bucket ...

    周國輝 評論0 收藏0
  • (PHP7內(nèi)核剖析-4) 局部變量,全局變量,常量

    摘要:局部變量中局部變量分配在結(jié)構(gòu)上,每次執(zhí)行都會生成一個新的,局部變量在執(zhí)行之初分配,然后在執(zhí)行結(jié)束時釋放,這是局部變量的生命周期。 1.局部變量 PHP中局部變量分配在zend_execute_data結(jié)構(gòu)上,每次執(zhí)行zend_op_array都會生成一個新的zend_execute_data,局部變量在執(zhí)行之初分配,然后在執(zhí)行結(jié)束時釋放,這是局部變量的生命周期。 讀寫操作:局部變量通過...

    yagami 評論0 收藏0
  • (PHP7內(nèi)核剖析-8) 類

    摘要:父類方法為錯誤,成員方法不得被重寫。父子類方法靜態(tài)屬性不一致父類方法為非靜態(tài)而子類的是靜態(tài)或相反,錯誤。 1.類的結(jié)構(gòu) 類是編譯階段的產(chǎn)物,而對象是運行時產(chǎn)生的,它們歸屬于不同階段。編譯完成后我們定義的每個類都會生成一個zend_class_entry,它保存著類的全部信息,在執(zhí)行階段所有類相關(guān)的操作都是用的這個結(jié)構(gòu), struct _zend_class_entry { ch...

    JohnLui 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<