成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

尋找一種易于理解的一致性算法(擴(kuò)展版)

FuisonDesign / 2245人閱讀

摘要:摘要是一種為了管理復(fù)制日志的一致性算法。接下來(lái),這篇論文會(huì)介紹以下內(nèi)容復(fù)制狀態(tài)機(jī)問(wèn)題第節(jié),討論的優(yōu)點(diǎn)和缺點(diǎn)第節(jié),討論我們?yōu)榱丝衫斫庑远扇〉姆椒ǖ诠?jié),闡述一致性算法第節(jié),評(píng)價(jià)算法第節(jié),以及一些相關(guān)的工作第節(jié)。

摘要

Raft 是一種為了管理復(fù)制日志的一致性算法。它提供了和 Paxos 算法相同的功能和性能,但是它的算法結(jié)構(gòu)和 Paxos 不同,使得 Raft 算法更加容易理解并且更容易構(gòu)建實(shí)際的系統(tǒng)。為了提升可理解性,Raft 將一致性算法分解成了幾個(gè)關(guān)鍵模塊,例如領(lǐng)導(dǎo)人選舉、日志復(fù)制和安全性。同時(shí)它通過(guò)實(shí)施一個(gè)更強(qiáng)的一致性來(lái)減少需要考慮的狀態(tài)的數(shù)量。從一個(gè)用戶研究的結(jié)果可以證明,對(duì)于學(xué)生而言,Raft 算法比 Paxos 算法更加容易學(xué)習(xí)。Raft 算法還包括一個(gè)新的機(jī)制來(lái)允許集群成員的動(dòng)態(tài)改變,它利用重疊的大多數(shù)來(lái)保證安全性。

1 介紹

一致性算法允許一組機(jī)器像一個(gè)整體一樣工作,即使其中一些機(jī)器出現(xiàn)故障也能夠繼續(xù)工作下去。正因?yàn)槿绱?,一致性算法在?gòu)建可信賴的大規(guī)模軟件系統(tǒng)中扮演著重要的角色。在過(guò)去的 10 年里,Paxos 算法統(tǒng)治著一致性算法這一領(lǐng)域:絕大多數(shù)的實(shí)現(xiàn)都是基于 Paxos 或者受其影響。同時(shí) Paxos 也成為了教學(xué)領(lǐng)域里講解一致性問(wèn)題時(shí)的示例。

但是不幸的是,盡管有很多工作都在嘗試降低它的復(fù)雜性,但是 Paxos 算法依然十分難以理解。并且,Paxos 自身的算法結(jié)構(gòu)需要進(jìn)行大幅的修改才能夠應(yīng)用到實(shí)際的系統(tǒng)中。這些都導(dǎo)致了工業(yè)界和學(xué)術(shù)界都對(duì) Paxos 算法感到十分頭疼。

和 Paxos 算法進(jìn)行過(guò)努力之后,我們開(kāi)始尋找一種新的一致性算法,可以為構(gòu)建實(shí)際的系統(tǒng)和教學(xué)提供更好的基礎(chǔ)。我們的做法是不尋常的,我們的首要目標(biāo)是可理解性:我們是否可以在實(shí)際系統(tǒng)中定義一個(gè)一致性算法,并且能夠比 Paxos 算法以一種更加容易的方式來(lái)學(xué)習(xí)。此外,我們希望該算法方便系統(tǒng)構(gòu)建者的直覺(jué)的發(fā)展。不僅一個(gè)算法能夠工作很重要,而且能夠顯而易見(jiàn)的知道為什么能工作也很重要。

Raft 一致性算法就是這些工作的結(jié)果。在設(shè)計(jì) Raft 算法的時(shí)候,我們使用一些特別的技巧來(lái)提升它的可理解性,包括算法分解(Raft 主要被分成了領(lǐng)導(dǎo)人選舉,日志復(fù)制和安全三個(gè)模塊)和減少狀態(tài)機(jī)的狀態(tài)(相對(duì)于 Paxos,Raft 減少了非確定性和服務(wù)器互相處于非一致性的方式)。一份針對(duì)兩所大學(xué) 43 個(gè)學(xué)生的研究表明 Raft 明顯比 Paxos 算法更加容易理解。在這些學(xué)生同時(shí)學(xué)習(xí)了這兩種算法之后,和 Paxos 比起來(lái),其中 33 個(gè)學(xué)生能夠回答有關(guān)于 Raft 的問(wèn)題。

Raft 算法在許多方面和現(xiàn)有的一致性算法都很相似(主要是 Oki 和 Liskov 的 Viewstamped Replication),但是它也有一些獨(dú)特的特性:

強(qiáng)領(lǐng)導(dǎo)者:和其他一致性算法相比,Raft 使用一種更強(qiáng)的領(lǐng)導(dǎo)能力形式。比如,日志條目只從領(lǐng)導(dǎo)者發(fā)送給其他的服務(wù)器。這種方式簡(jiǎn)化了對(duì)復(fù)制日志的管理并且使得 Raft 算法更加易于理解。

領(lǐng)導(dǎo)選舉:Raft 算法使用一個(gè)隨機(jī)計(jì)時(shí)器來(lái)選舉領(lǐng)導(dǎo)者。這種方式只是在任何一致性算法都必須實(shí)現(xiàn)的心跳機(jī)制上增加了一點(diǎn)機(jī)制。在解決沖突的時(shí)候會(huì)更加簡(jiǎn)單快捷。

成員關(guān)系調(diào)整:Raft 使用一種共同一致的方法來(lái)處理集群成員變換的問(wèn)題,在這種方法下,處于調(diào)整過(guò)程中的兩種不同的配置集群中大多數(shù)機(jī)器會(huì)有重疊,這就使得集群在成員變換的時(shí)候依然可以繼續(xù)工作。

我們相信,Raft 算法不論出于教學(xué)目的還是作為實(shí)踐項(xiàng)目的基礎(chǔ)都是要比 Paxos 或者其他一致性算法要優(yōu)異的。它比其他算法更加簡(jiǎn)單,更加容易理解;它的算法描述足以實(shí)現(xiàn)一個(gè)現(xiàn)實(shí)的系統(tǒng);它有好多開(kāi)源的實(shí)現(xiàn)并且在很多公司里使用;它的安全性已經(jīng)被證明;它的效率和其他算法比起來(lái)也不相上下。

接下來(lái),這篇論文會(huì)介紹以下內(nèi)容:復(fù)制狀態(tài)機(jī)問(wèn)題(第 2 節(jié)),討論 Paxos 的優(yōu)點(diǎn)和缺點(diǎn)(第 3 節(jié)),討論我們?yōu)榱丝衫斫庑远扇〉姆椒ǎǖ?4 節(jié)),闡述 Raft 一致性算法(第 5-8 節(jié)),評(píng)價(jià) Raft 算法(第 9 節(jié)),以及一些相關(guān)的工作(第 10 節(jié))。

2 復(fù)制狀態(tài)機(jī)

一致性算法是從復(fù)制狀態(tài)機(jī)的背景下提出的(參考英文原文引用37)。在這種方法中,一組服務(wù)器上的狀態(tài)機(jī)產(chǎn)生相同狀態(tài)的副本,并且在一些機(jī)器宕掉的情況下也可以繼續(xù)運(yùn)行。復(fù)制狀態(tài)機(jī)在分布式系統(tǒng)中被用于解決很多容錯(cuò)的問(wèn)題。例如,大規(guī)模的系統(tǒng)中通常都有一個(gè)集群領(lǐng)導(dǎo)者,像 GFS、HDFS 和 RAMCloud,典型應(yīng)用就是一個(gè)獨(dú)立的的復(fù)制狀態(tài)機(jī)去管理領(lǐng)導(dǎo)選舉和存儲(chǔ)配置信息并且在領(lǐng)導(dǎo)人宕機(jī)的情況下也要存活下來(lái)。比如 Chubby 和 ZooKeeper。

圖 1 :復(fù)制狀態(tài)機(jī)的結(jié)構(gòu)。一致性算法管理著來(lái)自客戶端指令的復(fù)制日志。狀態(tài)機(jī)從日志中處理相同順序的相同指令,所以產(chǎn)生的結(jié)果也是相同的。

復(fù)制狀態(tài)機(jī)通常都是基于復(fù)制日志實(shí)現(xiàn)的,如圖 1。每一個(gè)服務(wù)器存儲(chǔ)一個(gè)包含一系列指令的日志,并且按照日志的順序進(jìn)行執(zhí)行。每一個(gè)日志都按照相同的順序包含相同的指令,所以每一個(gè)服務(wù)器都執(zhí)行相同的指令序列。因?yàn)槊總€(gè)狀態(tài)機(jī)都是確定的,每一次執(zhí)行操作都產(chǎn)生相同的狀態(tài)和同樣的序列。

保證復(fù)制日志相同就是一致性算法的工作了。在一臺(tái)服務(wù)器上,一致性模塊接收客戶端發(fā)送來(lái)的指令然后增加到自己的日志中去。它和其他服務(wù)器上的一致性模塊進(jìn)行通信來(lái)保證每一個(gè)服務(wù)器上的日志最終都以相同的順序包含相同的請(qǐng)求,盡管有些服務(wù)器會(huì)宕機(jī)。一旦指令被正確的復(fù)制,每一個(gè)服務(wù)器的狀態(tài)機(jī)按照日志順序處理他們,然后輸出結(jié)果被返回給客戶端。因此,服務(wù)器集群看起來(lái)形成一個(gè)高可靠的狀態(tài)機(jī)。

實(shí)際系統(tǒng)中使用的一致性算法通常含有以下特性:

安全性保證(絕對(duì)不會(huì)返回一個(gè)錯(cuò)誤的結(jié)果):在非拜占庭錯(cuò)誤情況下,包括網(wǎng)絡(luò)延遲、分區(qū)、丟包、冗余和亂序等錯(cuò)誤都可以保證正確。

可用性:集群中只要有大多數(shù)的機(jī)器可運(yùn)行并且能夠相互通信、和客戶端通信,就可以保證可用。因此,一個(gè)典型的包含 5 個(gè)節(jié)點(diǎn)的集群可以容忍兩個(gè)節(jié)點(diǎn)的失敗。服務(wù)器被停止就認(rèn)為是失敗。他們當(dāng)有穩(wěn)定的存儲(chǔ)的時(shí)候可以從狀態(tài)中恢復(fù)回來(lái)并重新加入集群。

不依賴時(shí)序來(lái)保證一致性:物理時(shí)鐘錯(cuò)誤或者極端的消息延遲只有在最壞情況下才會(huì)導(dǎo)致可用性問(wèn)題。

通常情況下,一條指令可以盡可能快的在集群中大多數(shù)節(jié)點(diǎn)響應(yīng)一輪遠(yuǎn)程過(guò)程調(diào)用時(shí)完成。小部分比較慢的節(jié)點(diǎn)不會(huì)影響系統(tǒng)整體的性能。

3 Paxos 算法的問(wèn)題

在過(guò)去的 10 年里,Leslie Lamport 的 Paxos 算法幾乎已經(jīng)成為一致性的代名詞:Paxos 是在課程教學(xué)中最經(jīng)常使用的算法,同時(shí)也是大多數(shù)一致性算法實(shí)現(xiàn)的起點(diǎn)。Paxos 首先定義了一個(gè)能夠達(dá)成單一決策一致的協(xié)議,比如單條的復(fù)制日志項(xiàng)。我們把這一子集叫做單決策 Paxos。然后通過(guò)組合多個(gè) Paxos 協(xié)議的實(shí)例來(lái)促進(jìn)一系列決策的達(dá)成。Paxos 保證安全性和活性,同時(shí)也支持集群成員關(guān)系的變更。Paxos 的正確性已經(jīng)被證明,在通常情況下也很高效。

不幸的是,Paxos 有兩個(gè)明顯的缺點(diǎn)。第一個(gè)缺點(diǎn)是 Paxos 算法特別的難以理解。完整的解釋是出了名的不透明;通過(guò)極大的努力之后,也只有少數(shù)人成功理解了這個(gè)算法。因此,有了幾次用更簡(jiǎn)單的術(shù)語(yǔ)來(lái)解釋 Paxos 的嘗試。盡管這些解釋都只關(guān)注了單決策的子集問(wèn)題,但依然很具有挑戰(zhàn)性。在 2012 年 NSDI 的會(huì)議中的一次調(diào)查顯示,很少有人對(duì) Paxos 算法感到滿意,甚至在經(jīng)驗(yàn)老道的研究者中也是如此。我們自己也嘗試去理解 Paxos;我們一直沒(méi)能理解 Paxos 直到我們讀了很多對(duì) Paxos 的簡(jiǎn)化解釋并且設(shè)計(jì)了我們自己的算法之后,這一過(guò)程花了近一年時(shí)間。

我們假設(shè) Paxos 的不透明性來(lái)自它選擇單決策問(wèn)題作為它的基礎(chǔ)。單決策 Paxos 是晦澀微妙的,它被劃分成了兩種沒(méi)有簡(jiǎn)單直觀解釋和無(wú)法獨(dú)立理解的情景。因此,這導(dǎo)致了很難建立起直觀的感受為什么單決策 Paxos 算法能夠工作。構(gòu)成多決策 Paxos 增加了很多錯(cuò)綜復(fù)雜的規(guī)則。我們相信,在多決策上達(dá)成一致性的問(wèn)題(一份日志而不是單一的日志記錄)能夠被分解成其他的方式并且更加直接和明顯。

Paxos算法的第二個(gè)問(wèn)題就是它沒(méi)有提供一個(gè)足夠好的用來(lái)構(gòu)建一個(gè)現(xiàn)實(shí)系統(tǒng)的基礎(chǔ)。一個(gè)原因是還沒(méi)有一種被廣泛認(rèn)同的多決策問(wèn)題的算法。Lamport 的描述基本上都是關(guān)于單決策 Paxos 的;他簡(jiǎn)要描述了實(shí)施多決策 Paxos 的方法,但是缺乏很多細(xì)節(jié)。當(dāng)然也有很多具體化 Paxos 的嘗試,但是他們都互相不一樣,和 Paxos 的概述也不同。例如 Chubby 這樣的系統(tǒng)實(shí)現(xiàn)了一個(gè)類似于 Paxos 的算法,但是大多數(shù)的細(xì)節(jié)并沒(méi)有被公開(kāi)。

而且,Paxos 算法的結(jié)構(gòu)也不是十分易于構(gòu)建實(shí)踐的系統(tǒng);單決策分解也會(huì)產(chǎn)生其他的結(jié)果。例如,獨(dú)立的選擇一組日志條目然后合并成一個(gè)序列化的日志并沒(méi)有帶來(lái)太多的好處,僅僅增加了不少?gòu)?fù)雜性。圍繞著日志來(lái)設(shè)計(jì)一個(gè)系統(tǒng)是更加簡(jiǎn)單高效的;新日志條目以嚴(yán)格限制的順序增添到日志中去。另一個(gè)問(wèn)題是,Paxos 使用了一種對(duì)等的點(diǎn)對(duì)點(diǎn)的方式作為它的核心(盡管它最終提議了一種弱領(lǐng)導(dǎo)人的方法來(lái)優(yōu)化性能)。在只有一個(gè)決策會(huì)被制定的簡(jiǎn)化世界中是很有意義的,但是很少有現(xiàn)實(shí)的系統(tǒng)使用這種方式。如果有一系列的決策需要被制定,首先選擇一個(gè)領(lǐng)導(dǎo)人,然后讓他去協(xié)調(diào)所有的決議,會(huì)更加簡(jiǎn)單快速。

因此,實(shí)際的系統(tǒng)中很少有和 Paxos 相似的實(shí)踐。每一種實(shí)現(xiàn)都是從 Paxos 開(kāi)始研究,然后發(fā)現(xiàn)很多實(shí)現(xiàn)上的難題,再然后開(kāi)發(fā)了一種和 Paxos 明顯不一樣的結(jié)構(gòu)。這樣是非常費(fèi)時(shí)和容易出錯(cuò)的,并且理解 Paxos 的難度使得這個(gè)問(wèn)題更加糟糕。Paxos 算法在理論上被證明是正確可行的,但是現(xiàn)實(shí)的系統(tǒng)和 Paxos 差別是如此的大,以至于這些證明沒(méi)有什么太大的價(jià)值。下面來(lái)自 Chubby 實(shí)現(xiàn)非常典型:

在Paxos算法描述和實(shí)現(xiàn)現(xiàn)實(shí)系統(tǒng)中間有著巨大的鴻溝。最終的系統(tǒng)建立在一種沒(méi)有經(jīng)過(guò)證明的算法之上。

由于以上問(wèn)題,我們認(rèn)為 Paxos 算法既沒(méi)有提供一個(gè)良好的基礎(chǔ)給實(shí)踐的系統(tǒng),也沒(méi)有給教學(xué)很好的幫助。基于一致性問(wèn)題在大規(guī)模軟件系統(tǒng)中的重要性,我們決定看看我們是否可以設(shè)計(jì)一個(gè)擁有更好特性的替代 Paxos 的一致性算法。Raft算法就是這次實(shí)驗(yàn)的結(jié)果。

4 為了可理解性的設(shè)計(jì)

設(shè)計(jì) Raft 算法我們有幾個(gè)初衷:它必須提供一個(gè)完整的實(shí)際的系統(tǒng)實(shí)現(xiàn)基礎(chǔ),這樣才能大大減少開(kāi)發(fā)者的工作;它必須在任何情況下都是安全的并且在大多數(shù)的情況下都是可用的;并且它的大部分操作必須是高效的。但是我們最重要也是最大的挑戰(zhàn)是可理解性。它必須保證對(duì)于普遍的人群都可以十分容易的去理解。另外,它必須能夠讓人形成直觀的認(rèn)識(shí),這樣系統(tǒng)的構(gòu)建者才能夠在現(xiàn)實(shí)中進(jìn)行必然的擴(kuò)展。

在設(shè)計(jì) Raft 算法的時(shí)候,有很多的點(diǎn)需要我們?cè)诟鞣N備選方案中進(jìn)行選擇。在這種情況下,我們?cè)u(píng)估備選方案基于可理解性原則:解釋各個(gè)備選方案有多大的難度(例如,Raft 的狀態(tài)空間有多復(fù)雜,是否有微妙的暗示)?對(duì)于一個(gè)讀者而言,完全理解這個(gè)方案和暗示是否容易?

我們意識(shí)到對(duì)這種可理解性分析上具有高度的主觀性;盡管如此,我們使用了兩種通常適用的技術(shù)來(lái)解決這個(gè)問(wèn)題。第一個(gè)技術(shù)就是眾所周知的問(wèn)題分解:只要有可能,我們就將問(wèn)題分解成幾個(gè)相對(duì)獨(dú)立的,可被解決的、可解釋的和可理解的子問(wèn)題。例如,Raft 算法被我們分成領(lǐng)導(dǎo)人選舉,日志復(fù)制,安全性和角色改變幾個(gè)部分。

我們使用的第二個(gè)方法是通過(guò)減少狀態(tài)的數(shù)量來(lái)簡(jiǎn)化需要考慮的狀態(tài)空間,使得系統(tǒng)更加連貫并且在可能的時(shí)候消除不確定性。特別的,所有的日志是不允許有空洞的,并且 Raft 限制了日志之間變成不一致?tīng)顟B(tài)的可能。盡管在大多數(shù)情況下我們都試圖去消除不確定性,但是也有一些情況下不確定性可以提升可理解性。尤其是,隨機(jī)化方法增加了不確定性,但是他們有利于減少狀態(tài)空間數(shù)量,通過(guò)處理所有可能選擇時(shí)使用相似的方法。我們使用隨機(jī)化去簡(jiǎn)化 Raft 中領(lǐng)導(dǎo)人選舉算法。

5 Raft 一致性算法

Raft 是一種用來(lái)管理章節(jié) 2 中描述的復(fù)制日志的算法。圖 2 為了參考之用,總結(jié)這個(gè)算法的簡(jiǎn)略版本,圖 3 列舉了這個(gè)算法的一些關(guān)鍵特性。圖中的這些元素會(huì)在剩下的章節(jié)逐一介紹。

Raft 通過(guò)選舉一個(gè)高貴的領(lǐng)導(dǎo)人,然后給予他全部的管理復(fù)制日志的責(zé)任來(lái)實(shí)現(xiàn)一致性。領(lǐng)導(dǎo)人從客戶端接收日志條目,把日志條目復(fù)制到其他服務(wù)器上,并且當(dāng)保證安全性的時(shí)候告訴其他的服務(wù)器應(yīng)用日志條目到他們的狀態(tài)機(jī)中。擁有一個(gè)領(lǐng)導(dǎo)人大大簡(jiǎn)化了對(duì)復(fù)制日志的管理。例如,領(lǐng)導(dǎo)人可以決定新的日志條目需要放在日志中的什么位置而不需要和其他服務(wù)器商議,并且數(shù)據(jù)都從領(lǐng)導(dǎo)人流向其他服務(wù)器。一個(gè)領(lǐng)導(dǎo)人可以宕機(jī),可以和其他服務(wù)器失去連接,這時(shí)一個(gè)新的領(lǐng)導(dǎo)人會(huì)被選舉出來(lái)。

通過(guò)領(lǐng)導(dǎo)人的方式,Raft 將一致性問(wèn)題分解成了三個(gè)相對(duì)獨(dú)立的子問(wèn)題,這些問(wèn)題會(huì)在接下來(lái)的子章節(jié)中進(jìn)行討論:

領(lǐng)導(dǎo)選舉:一個(gè)新的領(lǐng)導(dǎo)人需要被選舉出來(lái),當(dāng)現(xiàn)存的領(lǐng)導(dǎo)人宕機(jī)的時(shí)候(章節(jié) 5.2)

日志復(fù)制:領(lǐng)導(dǎo)人必須從客戶端接收日志然后復(fù)制到集群中的其他節(jié)點(diǎn),并且強(qiáng)制要求其他節(jié)點(diǎn)的日志保持和自己相同。

安全性:在 Raft 中安全性的關(guān)鍵是在圖 3 中展示的狀態(tài)機(jī)安全:如果有任何的服務(wù)器節(jié)點(diǎn)已經(jīng)應(yīng)用了一個(gè)確定的日志條目到它的狀態(tài)機(jī)中,那么其他服務(wù)器節(jié)點(diǎn)不能在同一個(gè)日志索引位置應(yīng)用一個(gè)不同的指令。章節(jié) 5.4 闡述了 Raft 算法是如何保證這個(gè)特性的;這個(gè)解決方案涉及到一個(gè)額外的選舉機(jī)制(5.2 節(jié))上的限制。

在展示一致性算法之后,這一章節(jié)會(huì)討論可用性的一些問(wèn)題和計(jì)時(shí)在系統(tǒng)的作用。

狀態(tài)

狀態(tài) 所有服務(wù)器上持久存在的
currentTerm 服務(wù)器最后一次知道的任期號(hào)(初始化為 0,持續(xù)遞增)
votedFor 在當(dāng)前獲得選票的候選人的 Id
log[] 日志條目集;每一個(gè)條目包含一個(gè)用戶狀態(tài)機(jī)執(zhí)行的指令,和收到時(shí)的任期號(hào)
狀態(tài) 所有服務(wù)器上經(jīng)常變的
commitIndex 已知的最大的已經(jīng)被提交的日志條目的索引值
lastApplied 最后被應(yīng)用到狀態(tài)機(jī)的日志條目索引值(初始化為 0,持續(xù)遞增)
狀態(tài) 在領(lǐng)導(dǎo)人里經(jīng)常改變的 (選舉后重新初始化)
nextIndex[] 對(duì)于每一個(gè)服務(wù)器,需要發(fā)送給他的下一個(gè)日志條目的索引值(初始化為領(lǐng)導(dǎo)人最后索引值加一)
matchIndex[] 對(duì)于每一個(gè)服務(wù)器,已經(jīng)復(fù)制給他的日志的最高索引值

附加日志 RPC

由領(lǐng)導(dǎo)人負(fù)責(zé)調(diào)用來(lái)復(fù)制日志指令;也會(huì)用作heartbeat

參數(shù) 解釋
term 領(lǐng)導(dǎo)人的任期號(hào)
leaderId 領(lǐng)導(dǎo)人的 Id,以便于跟隨者重定向請(qǐng)求
prevLogIndex 新的日志條目緊隨之前的索引值
prevLogTerm prevLogIndex 條目的任期號(hào)
entries[] 準(zhǔn)備存儲(chǔ)的日志條目(表示心跳時(shí)為空;一次性發(fā)送多個(gè)是為了提高效率)
leaderCommit 領(lǐng)導(dǎo)人已經(jīng)提交的日志的索引值
返回值 解釋
term 當(dāng)前的任期號(hào),用于領(lǐng)導(dǎo)人去更新自己
success 跟隨者包含了匹配上 prevLogIndex 和 prevLogTerm 的日志時(shí)為真

接收者實(shí)現(xiàn):

如果 term < currentTerm 就返回 false (5.1 節(jié))

如果日志在 prevLogIndex 位置處的日志條目的任期號(hào)和 prevLogTerm 不匹配,則返回 false (5.3 節(jié))

如果已經(jīng)存在的日志條目和新的產(chǎn)生沖突(索引值相同但是任期號(hào)不同),刪除這一條和之后所有的 (5.3 節(jié))

附加日志中尚未存在的任何新條目

如果 leaderCommit > commitIndex,令 commitIndex 等于 leaderCommit 和 新日志條目索引值中較小的一個(gè)

請(qǐng)求投票 RPC

由候選人負(fù)責(zé)調(diào)用用來(lái)征集選票(5.2 節(jié))

參數(shù) 解釋
term 候選人的任期號(hào)
candidateId 請(qǐng)求選票的候選人的 Id
lastLogIndex 候選人的最后日志條目的索引值
lastLogTerm 候選人最后日志條目的任期號(hào)
返回值 解釋
term 當(dāng)前任期號(hào),以便于候選人去更新自己的任期號(hào)
voteGranted 候選人贏得了此張選票時(shí)為真

接收者實(shí)現(xiàn):

如果term < currentTerm返回 false (5.2 節(jié))

如果 votedFor 為空或者為 candidateId,并且候選人的日志至少和自己一樣新,那么就投票給他(5.2 節(jié),5.4 節(jié))

所有服務(wù)器需遵守的規(guī)則

所有服務(wù)器:

如果commitIndex > lastApplied,那么就 lastApplied 加一,并把log[lastApplied]應(yīng)用到狀態(tài)機(jī)中(5.3 節(jié))

如果接收到的 RPC 請(qǐng)求或響應(yīng)中,任期號(hào)T > currentTerm,那么就令 currentTerm 等于 T,并切換狀態(tài)為跟隨者(5.1 節(jié))

跟隨者(5.2 節(jié)):

響應(yīng)來(lái)自候選人和領(lǐng)導(dǎo)者的請(qǐng)求

如果在超過(guò)選舉超時(shí)時(shí)間的情況之前都沒(méi)有收到領(lǐng)導(dǎo)人的心跳,或者是候選人請(qǐng)求投票的,就自己變成候選人

候選人(5.2 節(jié)):

在轉(zhuǎn)變成候選人后就立即開(kāi)始選舉過(guò)程

自增當(dāng)前的任期號(hào)(currentTerm)

給自己投票

重置選舉超時(shí)計(jì)時(shí)器

發(fā)送請(qǐng)求投票的 RPC 給其他所有服務(wù)器

如果接收到大多數(shù)服務(wù)器的選票,那么就變成領(lǐng)導(dǎo)人

如果接收到來(lái)自新的領(lǐng)導(dǎo)人的附加日志 RPC,轉(zhuǎn)變成跟隨者

如果選舉過(guò)程超時(shí),再次發(fā)起一輪選舉

領(lǐng)導(dǎo)人:

一旦成為領(lǐng)導(dǎo)人:發(fā)送空的附加日志 RPC(心跳)給其他所有的服務(wù)器;在一定的空余時(shí)間之后不停的重復(fù)發(fā)送,以阻止跟隨者超時(shí)(5.2 節(jié))

如果接收到來(lái)自客戶端的請(qǐng)求:附加條目到本地日志中,在條目被應(yīng)用到狀態(tài)機(jī)后響應(yīng)客戶端(5.3 節(jié))

如果對(duì)于一個(gè)跟隨者,最后日志條目的索引值大于等于 nextIndex,那么:發(fā)送從 nextIndex 開(kāi)始的所有日志條目:

如果成功:更新相應(yīng)跟隨者的 nextIndex 和 matchIndex

如果因?yàn)槿罩静灰恢露?,減少 nextIndex 重試

如果存在一個(gè)滿足N > commitIndex的 N,并且大多數(shù)的matchIndex[i] ≥ N成立,并且log[N].term == currentTerm成立,那么令 commitIndex 等于這個(gè) N (5.3 和 5.4 節(jié))

圖 2:一個(gè)關(guān)于 Raft 一致性算法的濃縮總結(jié)(不包括成員變換和日志壓縮)。
特性 解釋
選舉安全特性 對(duì)于一個(gè)給定的任期號(hào),最多只會(huì)有一個(gè)領(lǐng)導(dǎo)人被選舉出來(lái)(5.2 節(jié))
領(lǐng)導(dǎo)人只附加原則 領(lǐng)導(dǎo)人絕對(duì)不會(huì)刪除或者覆蓋自己的日志,只會(huì)增加(5.3 節(jié))
日志匹配原則 如果兩個(gè)日志在相同的索引位置的日志條目的任期號(hào)相同,那么我們就認(rèn)為這個(gè)日志從頭到這個(gè)索引位置之間全部完全相同(5.3 節(jié))
領(lǐng)導(dǎo)人完全特性 如果某個(gè)日志條目在某個(gè)任期號(hào)中已經(jīng)被提交,那么這個(gè)條目必然出現(xiàn)在更大任期號(hào)的所有領(lǐng)導(dǎo)人中(5.4 節(jié))
狀態(tài)機(jī)安全特性 如果一個(gè)領(lǐng)導(dǎo)人已經(jīng)在給定的索引值位置的日志條目應(yīng)用到狀態(tài)機(jī)中,那么其他任何的服務(wù)器在這個(gè)索引位置不會(huì)提交一個(gè)不同的日志(5.4.3 節(jié))

圖 3:Raft 在任何時(shí)候都保證以上的各個(gè)特性。
5.1 Raft 基礎(chǔ)

一個(gè) Raft 集群包含若干個(gè)服務(wù)器節(jié)點(diǎn);通常是 5 個(gè),這允許整個(gè)系統(tǒng)容忍 2 個(gè)節(jié)點(diǎn)的失效。在任何時(shí)刻,每一個(gè)服務(wù)器節(jié)點(diǎn)都處于這三個(gè)狀態(tài)之一:領(lǐng)導(dǎo)人、跟隨者或者候選人。在通常情況下,系統(tǒng)中只有一個(gè)領(lǐng)導(dǎo)人并且其他的節(jié)點(diǎn)全部都是跟隨者。跟隨者都是被動(dòng)的:他們不會(huì)發(fā)送任何請(qǐng)求,只是簡(jiǎn)單的響應(yīng)來(lái)自領(lǐng)導(dǎo)者或者候選人的請(qǐng)求。領(lǐng)導(dǎo)人處理所有的客戶端請(qǐng)求(如果一個(gè)客戶端和跟隨者聯(lián)系,那么跟隨者會(huì)把請(qǐng)求重定向給領(lǐng)導(dǎo)人)。第三種狀態(tài),候選人,是用來(lái)在 5.2 節(jié)描述的選舉新領(lǐng)導(dǎo)人時(shí)使用。圖 4 展示了這些狀態(tài)和他們之間的轉(zhuǎn)換關(guān)系;這些轉(zhuǎn)換關(guān)系會(huì)在接下來(lái)進(jìn)行討論。

圖 4:服務(wù)器狀態(tài)。跟隨者只響應(yīng)來(lái)自其他服務(wù)器的請(qǐng)求。如果跟隨者接收不到消息,那么他就會(huì)變成候選人并發(fā)起一次選舉。獲得集群中大多數(shù)選票的候選人將成為領(lǐng)導(dǎo)者。在一個(gè)任期內(nèi),領(lǐng)導(dǎo)人一直都會(huì)是領(lǐng)導(dǎo)人直到自己宕機(jī)了。

圖 5:時(shí)間被劃分成一個(gè)個(gè)的任期,每個(gè)任期開(kāi)始都是一次選舉。在選舉成功后,領(lǐng)導(dǎo)人會(huì)管理整個(gè)集群直到任期結(jié)束。有時(shí)候選舉會(huì)失敗,那么這個(gè)任期就會(huì)沒(méi)有領(lǐng)導(dǎo)人而結(jié)束。任期之間的切換可以在不同的時(shí)間不同的服務(wù)器上觀察到。

Raft 把時(shí)間分割成任意長(zhǎng)度的任期,如圖 5。任期用連續(xù)的整數(shù)標(biāo)記。每一段任期從一次選舉開(kāi)始,就像章節(jié) 5.2 描述的一樣,一個(gè)或者多個(gè)候選人嘗試成為領(lǐng)導(dǎo)者。如果一個(gè)候選人贏得選舉,然后他就在接下來(lái)的任期內(nèi)充當(dāng)領(lǐng)導(dǎo)人的職責(zé)。在某些情況下,一次選舉過(guò)程會(huì)造成選票的瓜分。在這種情況下,這一任期會(huì)以沒(méi)有領(lǐng)導(dǎo)人結(jié)束;一個(gè)新的任期(和一次新的選舉)會(huì)很快重新開(kāi)始。Raft 保證了在一個(gè)給定的任期內(nèi),最多只有一個(gè)領(lǐng)導(dǎo)者。

不同的服務(wù)器節(jié)點(diǎn)可能多次觀察到任期之間的轉(zhuǎn)換,但在某些情況下,一個(gè)節(jié)點(diǎn)也可能觀察不到任何一次選舉或者整個(gè)任期全程。任期在 Raft 算法中充當(dāng)邏輯時(shí)鐘的作用,這會(huì)允許服務(wù)器節(jié)點(diǎn)查明一些過(guò)期的信息比如陳舊的領(lǐng)導(dǎo)者。每一個(gè)節(jié)點(diǎn)存儲(chǔ)一個(gè)當(dāng)前任期號(hào),這一編號(hào)在整個(gè)時(shí)期內(nèi)單調(diào)的增長(zhǎng)。當(dāng)服務(wù)器之間通信的時(shí)候會(huì)交換當(dāng)前任期號(hào);如果一個(gè)服務(wù)器的當(dāng)前任期號(hào)比其他人小,那么他會(huì)更新自己的編號(hào)到較大的編號(hào)值。如果一個(gè)候選人或者領(lǐng)導(dǎo)者發(fā)現(xiàn)自己的任期號(hào)過(guò)期了,那么他會(huì)立即恢復(fù)成跟隨者狀態(tài)。如果一個(gè)節(jié)點(diǎn)接收到一個(gè)包含過(guò)期的任期號(hào)的請(qǐng)求,那么他會(huì)直接拒絕這個(gè)請(qǐng)求。

Raft 算法中服務(wù)器節(jié)點(diǎn)之間通信使用遠(yuǎn)程過(guò)程調(diào)用(RPCs),并且基本的一致性算法只需要兩種類型的 RPCs。請(qǐng)求投票(RequestVote) RPCs 由候選人在選舉期間發(fā)起(章節(jié) 5.2),然后附加條目(AppendEntries)RPCs 由領(lǐng)導(dǎo)人發(fā)起,用來(lái)復(fù)制日志和提供一種心跳機(jī)制(章節(jié) 5.3)。第 7 節(jié)為了在服務(wù)器之間傳輸快照增加了第三種 RPC。當(dāng)服務(wù)器沒(méi)有及時(shí)的收到 RPC 的響應(yīng)時(shí),會(huì)進(jìn)行重試, 并且他們能夠并行的發(fā)起 RPCs 來(lái)獲得最佳的性能。

5.2 領(lǐng)導(dǎo)人選舉

Raft 使用一種心跳機(jī)制來(lái)觸發(fā)領(lǐng)導(dǎo)人選舉。當(dāng)服務(wù)器程序啟動(dòng)時(shí),他們都是跟隨者身份。一個(gè)服務(wù)器節(jié)點(diǎn)繼續(xù)保持著跟隨者狀態(tài)只要他從領(lǐng)導(dǎo)人或者候選者處接收到有效的 RPCs。領(lǐng)導(dǎo)者周期性的向所有跟隨者發(fā)送心跳包(即不包含日志項(xiàng)內(nèi)容的附加日志項(xiàng) RPCs)來(lái)維持自己的權(quán)威。如果一個(gè)跟隨者在一段時(shí)間里沒(méi)有接收到任何消息,也就是選舉超時(shí),那么他就會(huì)認(rèn)為系統(tǒng)中沒(méi)有可用的領(lǐng)導(dǎo)者,并且發(fā)起選舉以選出新的領(lǐng)導(dǎo)者。

要開(kāi)始一次選舉過(guò)程,跟隨者先要增加自己的當(dāng)前任期號(hào)并且轉(zhuǎn)換到候選人狀態(tài)。然后他會(huì)并行的向集群中的其他服務(wù)器節(jié)點(diǎn)發(fā)送請(qǐng)求投票的 RPCs 來(lái)給自己投票。候選人會(huì)繼續(xù)保持著當(dāng)前狀態(tài)直到以下三件事情之一發(fā)生:(a) 他自己贏得了這次的選舉,(b) 其他的服務(wù)器成為領(lǐng)導(dǎo)者,(c) 一段時(shí)間之后沒(méi)有任何一個(gè)獲勝的人。這些結(jié)果會(huì)分別的在下面的段落里進(jìn)行討論。

當(dāng)一個(gè)候選人從整個(gè)集群的大多數(shù)服務(wù)器節(jié)點(diǎn)獲得了針對(duì)同一個(gè)任期號(hào)的選票,那么他就贏得了這次選舉并成為領(lǐng)導(dǎo)人。每一個(gè)服務(wù)器最多會(huì)對(duì)一個(gè)任期號(hào)投出一張選票,按照先來(lái)先服務(wù)的原則(注意:5.4 節(jié)在投票上增加了一點(diǎn)額外的限制)。要求大多數(shù)選票的規(guī)則確保了最多只會(huì)有一個(gè)候選人贏得此次選舉(圖 3 中的選舉安全性)。一旦候選人贏得選舉,他就立即成為領(lǐng)導(dǎo)人。然后他會(huì)向其他的服務(wù)器發(fā)送心跳消息來(lái)建立自己的權(quán)威并且阻止新的領(lǐng)導(dǎo)人的產(chǎn)生。

在等待投票的時(shí)候,候選人可能會(huì)從其他的服務(wù)器接收到聲明它是領(lǐng)導(dǎo)人的附加日志項(xiàng) RPC。如果這個(gè)領(lǐng)導(dǎo)人的任期號(hào)(包含在此次的 RPC中)不小于候選人當(dāng)前的任期號(hào),那么候選人會(huì)承認(rèn)領(lǐng)導(dǎo)人合法并回到跟隨者狀態(tài)。 如果此次 RPC 中的任期號(hào)比自己小,那么候選人就會(huì)拒絕這次的 RPC 并且繼續(xù)保持候選人狀態(tài)。

第三種可能的結(jié)果是候選人既沒(méi)有贏得選舉也沒(méi)有輸:如果有多個(gè)跟隨者同時(shí)成為候選人,那么選票可能會(huì)被瓜分以至于沒(méi)有候選人可以贏得大多數(shù)人的支持。當(dāng)這種情況發(fā)生的時(shí)候,每一個(gè)候選人都會(huì)超時(shí),然后通過(guò)增加當(dāng)前任期號(hào)來(lái)開(kāi)始一輪新的選舉。然而,沒(méi)有其他機(jī)制的話,選票可能會(huì)被無(wú)限的重復(fù)瓜分。

Raft 算法使用隨機(jī)選舉超時(shí)時(shí)間的方法來(lái)確保很少會(huì)發(fā)生選票瓜分的情況,就算發(fā)生也能很快的解決。為了阻止選票起初就被瓜分,選舉超時(shí)時(shí)間是從一個(gè)固定的區(qū)間(例如 150-300 毫秒)隨機(jī)選擇。這樣可以把服務(wù)器都分散開(kāi)以至于在大多數(shù)情況下只有一個(gè)服務(wù)器會(huì)選舉超時(shí);然后他贏得選舉并在其他服務(wù)器超時(shí)之前發(fā)送心跳包。同樣的機(jī)制被用在選票瓜分的情況下。每一個(gè)候選人在開(kāi)始一次選舉的時(shí)候會(huì)重置一個(gè)隨機(jī)的選舉超時(shí)時(shí)間,然后在超時(shí)時(shí)間內(nèi)等待投票的結(jié)果;這樣減少了在新的選舉中另外的選票瓜分的可能性。9.3 節(jié)展示了這種方案能夠快速的選出一個(gè)領(lǐng)導(dǎo)人。

領(lǐng)導(dǎo)人選舉這個(gè)例子,體現(xiàn)了可理解性原則是如何指導(dǎo)我們進(jìn)行方案設(shè)計(jì)的。起初我們計(jì)劃使用一種排名系統(tǒng):每一個(gè)候選人都被賦予一個(gè)唯一的排名,供候選人之間競(jìng)爭(zhēng)時(shí)進(jìn)行選擇。如果一個(gè)候選人發(fā)現(xiàn)另一個(gè)候選人擁有更高的排名,那么他就會(huì)回到跟隨者狀態(tài),這樣高排名的候選人能夠更加容易的贏得下一次選舉。但是我們發(fā)現(xiàn)這種方法在可用性方面會(huì)有一點(diǎn)問(wèn)題(如果高排名的服務(wù)器宕機(jī)了,那么低排名的服務(wù)器可能會(huì)超時(shí)并再次進(jìn)入候選人狀態(tài)。而且如果這個(gè)行為發(fā)生得足夠快,則可能會(huì)導(dǎo)致整個(gè)選舉過(guò)程都被重置掉)。我們針對(duì)算法進(jìn)行了多次調(diào)整,但是每次調(diào)整之后都會(huì)有新的問(wèn)題。最終我們認(rèn)為隨機(jī)重試的方法是更加明顯和易于理解的。

5.3 日志復(fù)制

一旦一個(gè)領(lǐng)導(dǎo)人被選舉出來(lái),他就開(kāi)始為客戶端提供服務(wù)。客戶端的每一個(gè)請(qǐng)求都包含一條被復(fù)制狀態(tài)機(jī)執(zhí)行的指令。領(lǐng)導(dǎo)人把這條指令作為一條新的日志條目附加到日志中去,然后并行的發(fā)起附加條目 RPCs 給其他的服務(wù)器,讓他們復(fù)制這條日志條目。當(dāng)這條日志條目被安全的復(fù)制(下面會(huì)介紹),領(lǐng)導(dǎo)人會(huì)應(yīng)用這條日志條目到它的狀態(tài)機(jī)中然后把執(zhí)行的結(jié)果返回給客戶端。如果跟隨者崩潰或者運(yùn)行緩慢,再或者網(wǎng)絡(luò)丟包,領(lǐng)導(dǎo)人會(huì)不斷的重復(fù)嘗試附加日志條目 RPCs (盡管已經(jīng)回復(fù)了客戶端)直到所有的跟隨者都最終存儲(chǔ)了所有的日志條目。

圖 6:日志由有序序號(hào)標(biāo)記的條目組成。每個(gè)條目都包含創(chuàng)建時(shí)的任期號(hào)(圖中框中的數(shù)字),和一個(gè)狀態(tài)機(jī)需要執(zhí)行的指令。一個(gè)條目當(dāng)可以安全的被應(yīng)用到狀態(tài)機(jī)中去的時(shí)候,就認(rèn)為是可以提交了。

日志以圖 6 展示的方式組織。每一個(gè)日志條目存儲(chǔ)一條狀態(tài)機(jī)指令和從領(lǐng)導(dǎo)人收到這條指令時(shí)的任期號(hào)。日志中的任期號(hào)用來(lái)檢查是否出現(xiàn)不一致的情況,同時(shí)也用來(lái)保證圖 3 中的某些性質(zhì)。每一條日志條目同時(shí)也都有一個(gè)整數(shù)索引值來(lái)表明它在日志中的位置。

領(lǐng)導(dǎo)人來(lái)決定什么時(shí)候把日志條目應(yīng)用到狀態(tài)機(jī)中是安全的;這種日志條目被稱為已提交。Raft 算法保證所有已提交的日志條目都是持久化的并且最終會(huì)被所有可用的狀態(tài)機(jī)執(zhí)行。在領(lǐng)導(dǎo)人將創(chuàng)建的日志條目復(fù)制到大多數(shù)的服務(wù)器上的時(shí)候,日志條目就會(huì)被提交(例如在圖 6 中的條目 7)。同時(shí),領(lǐng)導(dǎo)人的日志中之前的所有日志條目也都會(huì)被提交,包括由其他領(lǐng)導(dǎo)人創(chuàng)建的條目。5.4 節(jié)會(huì)討論某些當(dāng)在領(lǐng)導(dǎo)人改變之后應(yīng)用這條規(guī)則的隱晦內(nèi)容,同時(shí)他也展示了這種提交的定義是安全的。領(lǐng)導(dǎo)人跟蹤了最大的將會(huì)被提交的日志項(xiàng)的索引,并且索引值會(huì)被包含在未來(lái)的所有附加日志 RPCs (包括心跳包),這樣其他的服務(wù)器才能最終知道領(lǐng)導(dǎo)人的提交位置。一旦跟隨者知道一條日志條目已經(jīng)被提交,那么他也會(huì)將這個(gè)日志條目應(yīng)用到本地的狀態(tài)機(jī)中(按照日志的順序)。

我們?cè)O(shè)計(jì)了 Raft 的日志機(jī)制來(lái)維護(hù)一個(gè)不同服務(wù)器的日志之間的高層次的一致性。這么做不僅簡(jiǎn)化了系統(tǒng)的行為也使得更加可預(yù)計(jì),同時(shí)他也是安全性保證的一個(gè)重要組件。Raft 維護(hù)著以下的特性,這些同時(shí)也組成了圖 3 中的日志匹配特性:

如果在不同的日志中的兩個(gè)條目擁有相同的索引和任期號(hào),那么他們存儲(chǔ)了相同的指令。

如果在不同的日志中的兩個(gè)條目擁有相同的索引和任期號(hào),那么他們之前的所有日志條目也全部相同。

第一個(gè)特性來(lái)自這樣的一個(gè)事實(shí),領(lǐng)導(dǎo)人最多在一個(gè)任期里在指定的一個(gè)日志索引位置創(chuàng)建一條日志條目,同時(shí)日志條目在日志中的位置也從來(lái)不會(huì)改變。第二個(gè)特性由附加日志 RPC 的一個(gè)簡(jiǎn)單的一致性檢查所保證。在發(fā)送附加日志 RPC 的時(shí)候,領(lǐng)導(dǎo)人會(huì)把新的日志條目緊接著之前的條目的索引位置和任期號(hào)包含在里面。如果跟隨者在它的日志中找不到包含相同索引位置和任期號(hào)的條目,那么他就會(huì)拒絕接收新的日志條目。一致性檢查就像一個(gè)歸納步驟:一開(kāi)始空的日志狀態(tài)肯定是滿足日志匹配特性的,然后一致性檢查保護(hù)了日志匹配特性當(dāng)日志擴(kuò)展的時(shí)候。因此,每當(dāng)附加日志 RPC 返回成功時(shí),領(lǐng)導(dǎo)人就知道跟隨者的日志一定是和自己相同的了。

在正常的操作中,領(lǐng)導(dǎo)人和跟隨者的日志保持一致性,所以附加日志 RPC 的一致性檢查從來(lái)不會(huì)失敗。然而,領(lǐng)導(dǎo)人崩潰的情況會(huì)使得日志處于不一致的狀態(tài)(老的領(lǐng)導(dǎo)人可能還沒(méi)有完全復(fù)制所有的日志條目)。這種不一致問(wèn)題會(huì)在領(lǐng)導(dǎo)人和跟隨者的一系列崩潰下加劇。圖 7 展示了跟隨者的日志可能和新的領(lǐng)導(dǎo)人不同的方式。跟隨者可能會(huì)丟失一些在新的領(lǐng)導(dǎo)人中有的日志條目,他也可能擁有一些領(lǐng)導(dǎo)人沒(méi)有的日志條目,或者兩者都發(fā)生。丟失或者多出日志條目可能會(huì)持續(xù)多個(gè)任期。

圖 7:當(dāng)一個(gè)領(lǐng)導(dǎo)人成功當(dāng)選時(shí),跟隨者可能是任何情況(a-f)。每一個(gè)盒子表示是一個(gè)日志條目;里面的數(shù)字表示任期號(hào)。跟隨者可能會(huì)缺少一些日志條目(a-b),可能會(huì)有一些未被提交的日志條目(c-d),或者兩種情況都存在(e-f)。例如,場(chǎng)景 f 可能會(huì)這樣發(fā)生,某服務(wù)器在任期 2 的時(shí)候是領(lǐng)導(dǎo)人,已附加了一些日志條目到自己的日志中,但在提交之前就崩潰了;很快這個(gè)機(jī)器就被重啟了,在任期 3 重新被選為領(lǐng)導(dǎo)人,并且又增加了一些日志條目到自己的日志中;在任期 2 和任期 3 的日志被提交之前,這個(gè)服務(wù)器又宕機(jī)了,并且在接下來(lái)的幾個(gè)任期里一直處于宕機(jī)狀態(tài)。

在 Raft 算法中,領(lǐng)導(dǎo)人處理不一致是通過(guò)強(qiáng)制跟隨者直接復(fù)制自己的日志來(lái)解決了。這意味著在跟隨者中的沖突的日志條目會(huì)被領(lǐng)導(dǎo)人的日志覆蓋。5.4 節(jié)會(huì)闡述如何通過(guò)增加一些限制來(lái)使得這樣的操作是安全的。

要使得跟隨者的日志進(jìn)入和自己一致的狀態(tài),領(lǐng)導(dǎo)人必須找到最后兩者達(dá)成一致的地方,然后刪除從那個(gè)點(diǎn)之后的所有日志條目,發(fā)送自己的日志給跟隨者。所有的這些操作都在進(jìn)行附加日志 RPCs 的一致性檢查時(shí)完成。領(lǐng)導(dǎo)人針對(duì)每一個(gè)跟隨者維護(hù)了一個(gè) nextIndex,這表示下一個(gè)需要發(fā)送給跟隨者的日志條目的索引地址。當(dāng)一個(gè)領(lǐng)導(dǎo)人剛獲得權(quán)力的時(shí)候,他初始化所有的 nextIndex 值為自己的最后一條日志的index加1(圖 7 中的 11)。如果一個(gè)跟隨者的日志和領(lǐng)導(dǎo)人不一致,那么在下一次的附加日志 RPC 時(shí)的一致性檢查就會(huì)失敗。在被跟隨者拒絕之后,領(lǐng)導(dǎo)人就會(huì)減小 nextIndex 值并進(jìn)行重試。最終 nextIndex 會(huì)在某個(gè)位置使得領(lǐng)導(dǎo)人和跟隨者的日志達(dá)成一致。當(dāng)這種情況發(fā)生,附加日志 RPC 就會(huì)成功,這時(shí)就會(huì)把跟隨者沖突的日志條目全部刪除并且加上領(lǐng)導(dǎo)人的日志。一旦附加日志 RPC 成功,那么跟隨者的日志就會(huì)和領(lǐng)導(dǎo)人保持一致,并且在接下來(lái)的任期里一直繼續(xù)保持。

如果需要的話,算法可以通過(guò)減少被拒絕的附加日志 RPCs 的次數(shù)來(lái)優(yōu)化。例如,當(dāng)附加日志 RPC 的請(qǐng)求被拒絕的時(shí)候,跟隨者可以包含沖突的條目的任期號(hào)和自己存儲(chǔ)的那個(gè)任期的最早的索引地址。借助這些信息,領(lǐng)導(dǎo)人可以減小 nextIndex 越過(guò)所有那個(gè)任期沖突的所有日志條目;這樣就變成每個(gè)任期需要一次附加條目 RPC 而不是每個(gè)條目一次。在實(shí)踐中,我們十分懷疑這種優(yōu)化是否是必要的,因?yàn)槭∈呛苌侔l(fā)生的并且也不大可能會(huì)有這么多不一致的日志。

通過(guò)這種機(jī)制,領(lǐng)導(dǎo)人在獲得權(quán)力的時(shí)候就不需要任何特殊的操作來(lái)恢復(fù)一致性。他只需要進(jìn)行正常的操作,然后日志就能自動(dòng)的在回復(fù)附加日志 RPC 的一致性檢查失敗的時(shí)候自動(dòng)趨于一致。領(lǐng)導(dǎo)人從來(lái)不會(huì)覆蓋或者刪除自己的日志(圖 3 的領(lǐng)導(dǎo)人只附加特性)。

日志復(fù)制機(jī)制展示出了第 2 節(jié)中形容的一致性特性:Raft 能夠接受,復(fù)制并應(yīng)用新的日志條目只要大部分的機(jī)器是工作的;在通常的情況下,新的日志條目可以在一次 RPC 中被復(fù)制給集群中的大多數(shù)機(jī)器;并且單個(gè)的緩慢的跟隨者不會(huì)影響整體的性能。

5.4 安全性

前面的章節(jié)里描述了 Raft 算法是如何選舉和復(fù)制日志的。然而,到目前為止描述的機(jī)制并不能充分的保證每一個(gè)狀態(tài)機(jī)會(huì)按照相同的順序執(zhí)行相同的指令。例如,一個(gè)跟隨者可能會(huì)進(jìn)入不可用狀態(tài)同時(shí)領(lǐng)導(dǎo)人已經(jīng)提交了若干的日志條目,然后這個(gè)跟隨者可能會(huì)被選舉為領(lǐng)導(dǎo)人并且覆蓋這些日志條目;因此,不同的狀態(tài)機(jī)可能會(huì)執(zhí)行不同的指令序列。

這一節(jié)通過(guò)在領(lǐng)導(dǎo)選舉的時(shí)候增加一些限制來(lái)完善 Raft 算法。這一限制保證了任何的領(lǐng)導(dǎo)人對(duì)于給定的任期號(hào),都擁有了之前任期的所有被提交的日志條目(圖 3 中的領(lǐng)導(dǎo)人完整特性)。增加這一選舉時(shí)的限制,我們對(duì)于提交時(shí)的規(guī)則也更加清晰。最終,我們將展示對(duì)于領(lǐng)導(dǎo)人完整特性的簡(jiǎn)要證明,并且說(shuō)明領(lǐng)導(dǎo)人是如何領(lǐng)導(dǎo)復(fù)制狀態(tài)機(jī)的做出正確行為的。

5.4.1 選舉限制

在任何基于領(lǐng)導(dǎo)人的一致性算法中,領(lǐng)導(dǎo)人都必須存儲(chǔ)所有已經(jīng)提交的日志條目。在某些一致性算法中,例如 Viewstamped Replication,某個(gè)節(jié)點(diǎn)即使是一開(kāi)始并沒(méi)有包含所有已經(jīng)提交的日志條目,它也能被選為領(lǐng)導(dǎo)者。這些算法都包含一些額外的機(jī)制來(lái)識(shí)別丟失的日志條目并把他們傳送給新的領(lǐng)導(dǎo)人,要么是在選舉階段要么在之后很快進(jìn)行。不幸的是,這種方法會(huì)導(dǎo)致相當(dāng)大的額外的機(jī)制和復(fù)雜性。Raft 使用了一種更加簡(jiǎn)單的方法,它可以保證所有之前的任期號(hào)中已經(jīng)提交的日志條目在選舉的時(shí)候都會(huì)出現(xiàn)在新的領(lǐng)導(dǎo)人中,不需要傳送這些日志條目給領(lǐng)導(dǎo)人。這意味著日志條目的傳送是單向的,只從領(lǐng)導(dǎo)人傳給跟隨者,并且領(lǐng)導(dǎo)人從不會(huì)覆蓋自身本地日志中已經(jīng)存在的條目。

Raft 使用投票的方式來(lái)阻止一個(gè)候選人贏得選舉除非這個(gè)候選人包含了所有已經(jīng)提交的日志條目。候選人為了贏得選舉必須聯(lián)系集群中的大部分節(jié)點(diǎn),這意味著每一個(gè)已經(jīng)提交的日志條目在這些服務(wù)器節(jié)點(diǎn)中肯定存在于至少一個(gè)節(jié)點(diǎn)上。如果候選人的日志至少和大多數(shù)的服務(wù)器節(jié)點(diǎn)一樣新(這個(gè)新的定義會(huì)在下面討論),那么他一定持有了所有已經(jīng)提交的日志條目。請(qǐng)求投票 RPC 實(shí)現(xiàn)了這樣的限制: RPC 中包含了候選人的日志信息,然后投票人會(huì)拒絕掉那些日志沒(méi)有自己新的投票請(qǐng)求。

Raft 通過(guò)比較兩份日志中最后一條日志條目的索引值和任期號(hào)定義誰(shuí)的日志比較新。如果兩份日志最后的條目的任期號(hào)不同,那么任期號(hào)大的日志更加新。如果兩份日志最后的條目任期號(hào)相同,那么日志比較長(zhǎng)的那個(gè)就更加新。

5.4.2 提交之前任期內(nèi)的日志條目

如同 5.3 節(jié)介紹的那樣,領(lǐng)導(dǎo)人知道一條當(dāng)前任期內(nèi)的日志記錄是可以被提交的,只要它被存儲(chǔ)到了大多數(shù)的服務(wù)器上。如果一個(gè)領(lǐng)導(dǎo)人在提交日志條目之前崩潰了,未來(lái)后續(xù)的領(lǐng)導(dǎo)人會(huì)繼續(xù)嘗試復(fù)制這條日志記錄。然而,一個(gè)領(lǐng)導(dǎo)人不能斷定一個(gè)之前任期里的日志條目被保存到大多數(shù)服務(wù)器上的時(shí)候就一定已經(jīng)提交了。圖 8 展示了一種情況,一條已經(jīng)被存儲(chǔ)到大多數(shù)節(jié)點(diǎn)上的老日志條目,也依然有可能會(huì)被未來(lái)的領(lǐng)導(dǎo)人覆蓋掉。

圖 8:如圖的時(shí)間序列展示了為什么領(lǐng)導(dǎo)人無(wú)法決定對(duì)老任期號(hào)的日志條目進(jìn)行提交。在 (a) 中,S1 是領(lǐng)導(dǎo)者,部分的復(fù)制了索引位置 2 的日志條目。在 (b) 中,S1 崩潰了,然后 S5 在任期 3 里通過(guò) S3、S4 和自己的選票贏得選舉,然后從客戶端接收了一條不一樣的日志條目放在了索引 2 處。然后到 (c),S5 又崩潰了;S1 重新啟動(dòng),選舉成功,開(kāi)始復(fù)制日志。在這時(shí),來(lái)自任期 2 的那條日志已經(jīng)被復(fù)制到了集群中的大多數(shù)機(jī)器上,但是還沒(méi)有被提交。如果 S1 在 (d) 中又崩潰了,S5 可以重新被選舉成功(通過(guò)來(lái)自 S2,S3 和 S4 的選票),然后覆蓋了他們?cè)谒饕?2 處的日志。反之,如果在崩潰之前,S1 把自己主導(dǎo)的新任期里產(chǎn)生的日志條目復(fù)制到了大多數(shù)機(jī)器上,就如 (e) 中那樣,那么在后面任期里面這些新的日志條目就會(huì)被提交(因?yàn)镾5 就不可能選舉成功)。 這樣在同一時(shí)刻就同時(shí)保證了,之前的所有老的日志條目就會(huì)被提交。

為了消除圖 8 里描述的情況,Raft 永遠(yuǎn)不會(huì)通過(guò)計(jì)算副本數(shù)目的方式去提交一個(gè)之前任期內(nèi)的日志條目。只有領(lǐng)導(dǎo)人當(dāng)前任期里的日志條目通過(guò)計(jì)算副本數(shù)目可以被提交;一旦當(dāng)前任期的日志條目以這種方式被提交,那么由于日志匹配特性,之前的日志條目也都會(huì)被間接的提交。在某些情況下,領(lǐng)導(dǎo)人可以安全的知道一個(gè)老的日志條目是否已經(jīng)被提交(例如,該條目是否存儲(chǔ)到所有服務(wù)器上),但是 Raft 為了簡(jiǎn)化問(wèn)題使用一種更加保守的方法。

當(dāng)領(lǐng)導(dǎo)人復(fù)制之前任期里的日志時(shí),Raft 會(huì)為所有日志保留原始的任期號(hào), 這在提交規(guī)則上產(chǎn)生了額外的復(fù)雜性。在其他的一致性算法中,如果一個(gè)新的領(lǐng)導(dǎo)人要重新復(fù)制之前的任期里的日志時(shí),它必須使用當(dāng)前新的任期號(hào)。Raft 使用的方法更加容易辨別出日志,因?yàn)樗梢噪S著時(shí)間和日志的變化對(duì)日志維護(hù)著同一個(gè)任期編號(hào)。另外,和其他的算法相比,Raft 中的新領(lǐng)導(dǎo)人只需要發(fā)送更少日志條目(其他算法中必須在他們被提交之前發(fā)送更多的冗余日志條目來(lái)為他們重新編號(hào))。

5.4.3 安全性論證

在給定了完整的 Raft 算法之后,我們現(xiàn)在可以更加精確的討論領(lǐng)導(dǎo)人完整性特性(這一討論基于 9.2 節(jié)的安全性證明)。我們假設(shè)領(lǐng)導(dǎo)人完全性特性是不存在的,然后我們推出矛盾來(lái)。假設(shè)任期 T 的領(lǐng)導(dǎo)人(領(lǐng)導(dǎo)人 T)在任期內(nèi)提交了一條日志條目,但是這條日志條目沒(méi)有被存儲(chǔ)到未來(lái)某個(gè)任期的領(lǐng)導(dǎo)人的日志中。設(shè)大于 T 的最小任期 U 的領(lǐng)導(dǎo)人 U 沒(méi)有這條日志條目。

圖 9:如果 S1 (任期 T 的領(lǐng)導(dǎo)者)提交了一條新的日志在它的任期里,然后 S5 在之后的任期 U 里被選舉為領(lǐng)導(dǎo)人,然后至少會(huì)有一個(gè)機(jī)器,如 S3,既擁有來(lái)自 S1 的日志,也給 S5 投票了。

在領(lǐng)導(dǎo)人 U 選舉的時(shí)候一定沒(méi)有那條被提交的日志條目(領(lǐng)導(dǎo)人從不會(huì)刪除或者覆蓋任何條目)。

領(lǐng)導(dǎo)人 T 復(fù)制這條日志條目給集群中的大多數(shù)節(jié)點(diǎn),同時(shí),領(lǐng)導(dǎo)人U 從集群中的大多數(shù)節(jié)點(diǎn)贏得了選票。因此,至少有一個(gè)節(jié)點(diǎn)(投票者、選民)同時(shí)接受了來(lái)自領(lǐng)導(dǎo)人T 的日志條目,并且給領(lǐng)導(dǎo)人U 投票了,如圖 9。這個(gè)投票者是產(chǎn)生這個(gè)矛盾的關(guān)鍵。

這個(gè)投票者必須在給領(lǐng)導(dǎo)人 U 投票之前先接受了從領(lǐng)導(dǎo)人 T 發(fā)來(lái)的已經(jīng)被提交的日志條目;否則他就會(huì)拒絕來(lái)自領(lǐng)導(dǎo)人 T 的附加日志請(qǐng)求(因?yàn)榇藭r(shí)他的任期號(hào)會(huì)比 T 大)。

投票者在給領(lǐng)導(dǎo)人 U 投票時(shí)依然保存有這條日志條目,因?yàn)槿魏沃虚g的領(lǐng)導(dǎo)人都包含該日志條目(根據(jù)上述的假設(shè)),領(lǐng)導(dǎo)人從不會(huì)刪除條目,并且跟隨者只有在和領(lǐng)導(dǎo)人沖突的時(shí)候才會(huì)刪除條目。

投票者把自己選票投給領(lǐng)導(dǎo)人 U 時(shí),領(lǐng)導(dǎo)人 U 的日志必須和投票者自己一樣新。這就導(dǎo)致了兩者矛盾之一。

首先,如果投票者和領(lǐng)導(dǎo)人 U 的最后一條日志的任期號(hào)相同,那么領(lǐng)導(dǎo)人 U 的日志至少和投票者一樣長(zhǎng),所以領(lǐng)導(dǎo)人 U 的日志一定包含所有投票者的日志。這是另一處矛盾,因?yàn)橥镀闭甙四菞l已經(jīng)被提交的日志條目,但是在上述的假設(shè)里,領(lǐng)導(dǎo)人 U 是不包含的。

除此之外,領(lǐng)導(dǎo)人 U 的最后一條日志的任期號(hào)就必須比投票人大了。此外,他也比 T 大,因?yàn)橥镀比说淖詈笠粭l日志的任期號(hào)至少和 T 一樣大(他包含了來(lái)自任期 T 的已提交的日志)。創(chuàng)建了領(lǐng)導(dǎo)人 U 最后一條日志的之前領(lǐng)導(dǎo)人一定已經(jīng)包含了那條被提交的日志(根據(jù)上述假設(shè),領(lǐng)導(dǎo)人 U 是第一個(gè)不包含該日志條目的領(lǐng)導(dǎo)人)。所以,根據(jù)日志匹配特性,領(lǐng)導(dǎo)人 U 一定也包含那條被提交的日志,這里產(chǎn)生矛盾。

這里完成了矛盾。因此,所有比 T 大的領(lǐng)導(dǎo)人一定包含了所有來(lái)自 T 的已經(jīng)被提交的日志。

日志匹配原則保證了未來(lái)的領(lǐng)導(dǎo)人也同時(shí)會(huì)包含被間接提交的條目,例如圖 8 (d) 中的索引 2。

通過(guò)領(lǐng)導(dǎo)人完全特性,我們就能證明圖 3 中的狀態(tài)機(jī)安全特性,即如果服務(wù)器已經(jīng)在某個(gè)給定的索引值應(yīng)用了日志條目到自己的狀態(tài)機(jī)里,那么其他的服務(wù)器不會(huì)應(yīng)用一個(gè)不一樣的日志到同一個(gè)索引值上。在一個(gè)服務(wù)器應(yīng)用一條日志條目到他自己的狀態(tài)機(jī)中時(shí),他的日志必須和領(lǐng)導(dǎo)人的日志,在該條目和之前的條目上相同,并且已經(jīng)被提交?,F(xiàn)在我們來(lái)考慮在任何一個(gè)服務(wù)器應(yīng)用一個(gè)指定索引位置的日志的最小任期;日志完全特性保證擁有更高任期號(hào)的領(lǐng)導(dǎo)人會(huì)存儲(chǔ)相同的日志條目,所以之后的任期里應(yīng)用某個(gè)索引位置的日志條目也會(huì)是相同的值。因此,狀態(tài)機(jī)安全特性是成立的。

最后,Raft 要求服務(wù)器按照日志中索引位置順序應(yīng)用日志條目。和狀態(tài)機(jī)安全特性結(jié)合起來(lái)看,這就意味著所有的服務(wù)器會(huì)應(yīng)用相同的日志序列集到自己的狀態(tài)機(jī)中,并且是按照相同的順序。

5.5 跟隨者和候選人崩潰

到目前為止,我們都只關(guān)注了領(lǐng)導(dǎo)人崩潰的情況。跟隨者和候選人崩潰后的處理方式比領(lǐng)導(dǎo)人要簡(jiǎn)單的多,并且他們的處理方式是相同的。如果跟隨者或者候選人崩潰了,那么后續(xù)發(fā)送給他們的 RPCs 都會(huì)失敗。Raft 中處理這種失敗就是簡(jiǎn)單的通過(guò)無(wú)限的重試;如果崩潰的機(jī)器重啟了,那么這些 RPC 就會(huì)完整的成功。如果一個(gè)服務(wù)器在完成了一個(gè) RPC,但是還沒(méi)有響應(yīng)的時(shí)候崩潰了,那么在他重新啟動(dòng)之后就會(huì)再次收到同樣的請(qǐng)求。Raft 的 RPCs 都是冪等的,所以這樣重試不會(huì)造成任何問(wèn)題。例如一個(gè)跟隨者如果收到附加日志請(qǐng)求但是他已經(jīng)包含了這一日志,那么他就會(huì)直接忽略這個(gè)新的請(qǐng)求。

5.6 時(shí)間和可用性

Raft 的要求之一就是安全性不能依賴時(shí)間:整個(gè)系統(tǒng)不能因?yàn)槟承┦录\(yùn)行的比預(yù)期快一點(diǎn)或者慢一點(diǎn)就產(chǎn)生了錯(cuò)誤的結(jié)果。但是,可用性(系統(tǒng)可以及時(shí)的響應(yīng)客戶端)不可避免的要依賴于時(shí)間。例如,如果消息交換比服務(wù)器故障間隔時(shí)間長(zhǎng),候選人將沒(méi)有足夠長(zhǎng)的時(shí)間來(lái)贏得選舉;沒(méi)有一個(gè)穩(wěn)定的領(lǐng)導(dǎo)人,Raft 將無(wú)法工作。

領(lǐng)導(dǎo)人選舉是 Raft 中對(duì)時(shí)間要求最為關(guān)鍵的方面。Raft 可以選舉并維持一個(gè)穩(wěn)定的領(lǐng)導(dǎo)人,只要系統(tǒng)滿足下面的時(shí)間要求:

廣播時(shí)間(broadcastTime)  <<  選舉超時(shí)時(shí)間(electionTimeout) <<  平均故障間隔時(shí)間(MTBF)

在這個(gè)不等式中,廣播時(shí)間指的是從一個(gè)服務(wù)器并行的發(fā)送 RPCs 給集群中的其他服務(wù)器并接收響應(yīng)的平均時(shí)間;選舉超時(shí)時(shí)間就是在 5.2 節(jié)中介紹的選舉的超時(shí)時(shí)間限制;然后平均故障間隔時(shí)間就是對(duì)于一臺(tái)服務(wù)器而言,兩次故障之間的平均時(shí)間。廣播時(shí)間必須比選舉超時(shí)時(shí)間小一個(gè)量級(jí),這樣領(lǐng)導(dǎo)人才能夠發(fā)送穩(wěn)定的心跳消息來(lái)阻止跟隨者開(kāi)始進(jìn)入選舉狀態(tài);通過(guò)隨機(jī)化選舉超時(shí)時(shí)間的方法,這個(gè)不等式也使得選票瓜分的情況變得不可能。選舉超時(shí)時(shí)間應(yīng)該要比平均故障間隔時(shí)間小上幾個(gè)數(shù)量級(jí),這樣整個(gè)系統(tǒng)才能穩(wěn)定的運(yùn)行。當(dāng)領(lǐng)導(dǎo)人崩潰后,整個(gè)系統(tǒng)會(huì)大約相當(dāng)于選舉超時(shí)的時(shí)間里不可用;我們希望這種情況在整個(gè)系統(tǒng)的運(yùn)行中很少出現(xiàn)。

廣播時(shí)間和平均故障間隔時(shí)間是由系統(tǒng)決定的,但是選舉超時(shí)時(shí)間是我們自己選擇的。Raft 的 RPCs 需要接收方將信息持久化的保存到穩(wěn)定存儲(chǔ)中去,所以廣播時(shí)間大約是 0.5 毫秒到 20 毫秒,取決于存儲(chǔ)的技術(shù)。因此,選舉超時(shí)時(shí)間可能需要在 10 毫秒到 500 毫秒之間。大多數(shù)的服務(wù)器的平均故障間隔時(shí)間都在幾個(gè)月甚至更長(zhǎng),很容易滿足時(shí)間的需求。

6 集群成員變化

到目前為止,我們都假設(shè)集群的配置(加入到一致性算法的服務(wù)器集合)是固定不變的。但是在實(shí)踐中,偶爾是會(huì)改變集群的配置的,例如替換那些宕機(jī)的機(jī)器或者改變復(fù)制級(jí)別。盡管可以通過(guò)暫停整個(gè)集群,更新所有配置,然后重啟整個(gè)集群的方式來(lái)實(shí)現(xiàn),但是在更改的時(shí)候集群會(huì)不可用。另外,如果存在手工操作步驟,那么就會(huì)有操作失誤的風(fēng)險(xiǎn)。為了避免這樣的問(wèn)題,我們決定自動(dòng)化配置改變并且將其納入到 Raft 一致性算法中來(lái)。

為了讓配置修改機(jī)制能夠安全,那么在轉(zhuǎn)換的過(guò)程中不能夠存在任何時(shí)間點(diǎn)使得兩個(gè)領(lǐng)導(dǎo)人同時(shí)被選舉成功在同一個(gè)任期里。不幸的是,任何服務(wù)器直接從舊的配置直接轉(zhuǎn)換到新的配置的方案都是不安全的。一次性自動(dòng)的轉(zhuǎn)換所有服務(wù)器是不可能的,所以在轉(zhuǎn)換期間整個(gè)集群存在劃分成兩個(gè)獨(dú)立的大多數(shù)群體的可能性(見(jiàn)圖 10)。

圖 10:直接從一種配置轉(zhuǎn)到新的配置是十分不安全的,因?yàn)楦鱾€(gè)機(jī)器可能在任何的時(shí)候進(jìn)行轉(zhuǎn)換。在這個(gè)例子中,集群配額從 3 臺(tái)機(jī)器變成了 5 臺(tái)。不幸的是,存在這樣的一個(gè)時(shí)間點(diǎn),兩個(gè)不同的領(lǐng)導(dǎo)人在同一個(gè)任期里都可以被選舉成功。一個(gè)是通過(guò)舊的配置,一個(gè)通過(guò)新的配置。

為了保證安全性,配置更改必須使用兩階段方法。目前有很多種兩階段的實(shí)現(xiàn)。例如,有些系統(tǒng)在第一階段停掉舊的配置所以集群就不能處理客戶端請(qǐng)求;然后在第二階段在啟用新的配置。在 Raft 中,集群先切換到一個(gè)過(guò)渡的配置,我們稱之為共同一致;一旦共同一致已經(jīng)被提交了,那么系統(tǒng)就切換到新的配置上。共同一致是老配置和新配置的結(jié)合:

日志條目被復(fù)制給集群中新、老配置的所有服務(wù)器。

新、舊配置的服務(wù)器都可以成為領(lǐng)導(dǎo)人。

達(dá)成一致(針對(duì)選舉和提交)需要分別在兩種配置上獲得大多數(shù)的支持。

共同一致允許獨(dú)立的服務(wù)器在不影響安全性的前提下,在不同的時(shí)間進(jìn)行配置轉(zhuǎn)換過(guò)程。此外,共同一致可以讓集群在配置轉(zhuǎn)換的過(guò)程人依然響應(yīng)客戶端的請(qǐng)求。

集群配置在復(fù)制日志中以特殊的日志條目來(lái)存儲(chǔ)和通信;圖 11 展示了配置轉(zhuǎn)換的過(guò)程。當(dāng)一個(gè)領(lǐng)導(dǎo)人接收到一個(gè)改變配置從 C-old 到 C-new 的請(qǐng)求,他會(huì)為了共同一致存儲(chǔ)配置(圖中的 C-old,new),以前面描述的日志條目和副本的形式。一旦一個(gè)服務(wù)器將新的配置日志條目增加到它的日志中,他就會(huì)用這個(gè)配置來(lái)做出未來(lái)所有的決定(服務(wù)器總是使用最新的配置,無(wú)論他是否已經(jīng)被提交)。這意味著領(lǐng)導(dǎo)人要使用 C-old,new 的規(guī)則來(lái)決定日志條目 C-old,new 什么時(shí)候需要被提交。如果領(lǐng)導(dǎo)人崩潰了,被選出來(lái)的新領(lǐng)導(dǎo)人可能是使用 C-old 配置也可能是 C-old,new 配置,這取決于贏得選舉的候選人是否已經(jīng)接收到了 C-old,new 配置。在任何情況下, C-new 配置在這一時(shí)期都不會(huì)單方面的做出決定。

一旦 C-old,new 被提交,那么無(wú)論是 C-old 還是 C-new,在沒(méi)有經(jīng)過(guò)他人批準(zhǔn)的情況下都不可能做出決定,并且領(lǐng)導(dǎo)人完全特性保證了只有擁有 C-old,new 日志條目的服務(wù)器才有可能被選舉為領(lǐng)導(dǎo)人。這個(gè)時(shí)候,領(lǐng)導(dǎo)人創(chuàng)建一條關(guān)于 C-new 配置的日志條目并復(fù)制給集群就是安全的了。再者,每個(gè)服務(wù)器在見(jiàn)到新的配置的時(shí)候就會(huì)立即生效。當(dāng)新的配置在 C-new 的規(guī)則下被提交,舊的配置就變得無(wú)關(guān)緊要,同時(shí)不使用新的配置的服務(wù)器就可以被關(guān)閉了。如圖 11,C-old 和 C-new 沒(méi)有任何機(jī)會(huì)同時(shí)做出單方面的決定;這保證了安全性。

圖 11:一個(gè)配置切換的時(shí)間線。虛線表示已經(jīng)被創(chuàng)建但是還沒(méi)有被提交的條目,實(shí)線表示最后被提交的日志條目。領(lǐng)導(dǎo)人首先創(chuàng)建了 C-old,new 的配置條目在自己的日志中,并提交到 C-old,new 中(C-old 的大多數(shù)和  C-new 的大多數(shù))。然后他創(chuàng)建 C-new 條目并提交到 C-new 中的大多數(shù)。這樣就不存在  C-new 和 C-old 可以同時(shí)做出決定的時(shí)間點(diǎn)。

在關(guān)于重新配置還有三個(gè)問(wèn)題需要提出。第一個(gè)問(wèn)題是,新的服務(wù)器可能初始化沒(méi)有存儲(chǔ)任何的日志條目。當(dāng)這些服務(wù)器以這種狀態(tài)加入到集群中,那么他們需要一段時(shí)間來(lái)更新追趕,這時(shí)還不能提交新的日志條目。為了避免這種可用性的間隔時(shí)間,Raft 在配置更新的時(shí)候使用了一種額外的階段,在這個(gè)階段,新的服務(wù)器以沒(méi)有投票權(quán)身份加入到集群中來(lái)(領(lǐng)導(dǎo)人復(fù)制日志給他們,但是不考慮他們是大多數(shù))。一旦新的服務(wù)器追趕上了集群中的其他機(jī)器,重新配置可以像上面描述的一樣處理。

第二個(gè)問(wèn)題是,集群的領(lǐng)導(dǎo)人可能不是新配置的一員。在這種情況下,領(lǐng)導(dǎo)人就會(huì)在提交了 C-new 日志之后退位(回到跟隨者狀態(tài))。這意味著有這樣的一段時(shí)間,領(lǐng)導(dǎo)人管理著集群,但是不包括他自己;他復(fù)制日志但是不把他自己算作是大多數(shù)之一。當(dāng) C-new 被提交時(shí),會(huì)發(fā)生領(lǐng)導(dǎo)人過(guò)渡,因?yàn)檫@時(shí)是最早新的配置可以獨(dú)立工作的時(shí)間點(diǎn)(將總是能夠在 C-new 配置下選出新的領(lǐng)導(dǎo)人)。在此之前,可能只能從 C-old 中選出領(lǐng)導(dǎo)人。

第三個(gè)問(wèn)題是,移除不在 C-new 中的服務(wù)器可能會(huì)擾亂集群。這些服務(wù)器將不會(huì)再接收到心跳,所以當(dāng)選舉超時(shí),他們就會(huì)進(jìn)行新的選舉過(guò)程。他們會(huì)發(fā)送擁有新的任期號(hào)的請(qǐng)求投票 RPCs,這樣會(huì)導(dǎo)致當(dāng)前的領(lǐng)導(dǎo)人回退成跟隨者狀態(tài)。新的領(lǐng)導(dǎo)人最終會(huì)被選出來(lái),但是被移除的服務(wù)器將會(huì)再次超時(shí),然后這個(gè)過(guò)程會(huì)再次重復(fù),導(dǎo)致整體可用性大幅降低。

為了避免這個(gè)問(wèn)題,當(dāng)服務(wù)器確認(rèn)當(dāng)前領(lǐng)導(dǎo)人存在時(shí),服務(wù)器會(huì)忽略請(qǐng)求投票 RPCs。特別的,當(dāng)服務(wù)器在當(dāng)前最小選舉超時(shí)時(shí)間內(nèi)收到一個(gè)請(qǐng)求投票 RPC,他不會(huì)更新當(dāng)前的任期號(hào)或者投出選票。這不會(huì)影響正常的選舉,每個(gè)服務(wù)器在開(kāi)始一次選舉之前,至少等待一個(gè)最小選舉超時(shí)時(shí)間。然而,這有利于避免被移除的服務(wù)器擾亂:如果領(lǐng)導(dǎo)人能夠發(fā)送心跳給集群,那么他就不會(huì)被更大的任期號(hào)廢黜。

7 日志壓縮

Raft 的日志在正常操作中不斷的增長(zhǎng),但是在實(shí)際的系統(tǒng)中,日志不能無(wú)限制的增長(zhǎng)。隨著日志不斷增長(zhǎng),他會(huì)占用越來(lái)越多的空間,花費(fèi)越來(lái)越多的時(shí)間來(lái)重置。如果沒(méi)有一定的機(jī)制去清除日志里積累的陳舊的信息,那么會(huì)帶來(lái)可用性問(wèn)題。

快照是最簡(jiǎn)單的壓縮方法。在快照系統(tǒng)中,整個(gè)系統(tǒng)的狀態(tài)都以快照的形式寫入到穩(wěn)定的持久化存儲(chǔ)中,然后到那個(gè)時(shí)間點(diǎn)之前的日志全部丟棄??煺占夹g(shù)被使用在 Chubby 和 ZooKeeper 中,接下來(lái)的章節(jié)會(huì)介紹 Raft 中的快照技術(shù)。

增量壓縮的方法,例如日志清理或者日志結(jié)構(gòu)合并樹(shù),都是可行的。這些方法每次只對(duì)一小部分?jǐn)?shù)據(jù)進(jìn)行操作,這樣就分散了壓縮的負(fù)載壓力。首先,他們先選擇一個(gè)已經(jīng)積累的大量已經(jīng)被刪除或者被覆蓋對(duì)象的區(qū)域,然后重寫那個(gè)區(qū)域還活躍的對(duì)象,之后釋放那個(gè)區(qū)域。和簡(jiǎn)單操作整個(gè)數(shù)據(jù)集合的快照相比,需要增加復(fù)雜的機(jī)制來(lái)實(shí)現(xiàn)。狀態(tài)機(jī)可以實(shí)現(xiàn) LSM tree 使用和快照相同的接口,但是日志清除方法就需要修改 Raft 了。

圖 12:一個(gè)服務(wù)器用新的快照替換了從 1 到 5 的條目,快照值存儲(chǔ)了當(dāng)前的狀態(tài)??煺罩邪俗詈蟮乃饕恢煤腿纹谔?hào)。

圖 12 展示了 Raft 中快照的基礎(chǔ)思想。每個(gè)服務(wù)器獨(dú)立的創(chuàng)建快照,只包括已經(jīng)被提交的日志。主要的工作包括將狀態(tài)機(jī)的狀態(tài)寫入到快照中。Raft 也包含一些少量的元數(shù)據(jù)到快照中:最后被包含索引指的是被快照取代的最后的條目在日志中的索引值(狀態(tài)機(jī)最后應(yīng)用的日志),最后被包含的任期指的是該條目的任期號(hào)。保留這些數(shù)據(jù)是為了支持快照后緊接著的第一個(gè)條目的附加日志請(qǐng)求時(shí)的一致性檢查,因?yàn)檫@個(gè)條目需要前一日志條目的索引值和任期號(hào)。為了支持集群成員更新(第 6 節(jié)),快照中也將最后的一次配置作為最后一個(gè)條目存下來(lái)。一旦服務(wù)器完成一次快照,他就可以刪除最后索引位置之前的所有日志和快照了。

盡管通常服務(wù)器都是獨(dú)立的創(chuàng)建快照,但是領(lǐng)導(dǎo)人必須偶爾的發(fā)送快照給一些落后的跟隨者。這通常發(fā)生在當(dāng)領(lǐng)導(dǎo)人已經(jīng)丟棄了下一條需要發(fā)送給跟隨者的日志條目的時(shí)候。幸運(yùn)的是這種情況不是常規(guī)操作:一個(gè)與領(lǐng)導(dǎo)人保持同步的跟隨者通常都會(huì)有這個(gè)條目。然而一個(gè)運(yùn)行非常緩慢的跟隨者或者新加入集群的服務(wù)器(第 6 節(jié))將不會(huì)有這個(gè)條目。這時(shí)讓這個(gè)跟隨者更新到最新的狀態(tài)的方式就是通過(guò)網(wǎng)絡(luò)把快照發(fā)送給他們。

安裝快照 RPC

由領(lǐng)導(dǎo)人調(diào)用以將快照的分塊發(fā)送給跟隨者。領(lǐng)導(dǎo)者總是按順序發(fā)送分塊。

參數(shù) 解釋
term 領(lǐng)導(dǎo)人的任期號(hào)
leaderId 領(lǐng)導(dǎo)人的 Id,以便于跟隨者重定向請(qǐng)求
lastIncludedIndex 快照中包含的最后日志條目的索引值
lastIncludedTerm 快照中包含的最后日志條目的任期號(hào)
offset 分塊在快照中的字節(jié)偏移量
data[] 原始數(shù)據(jù)
done 如果這是最后一個(gè)分塊則為 true
結(jié)果 解釋
term 當(dāng)前任期號(hào)(currentTerm),便于領(lǐng)導(dǎo)人更新自己

接收者實(shí)現(xiàn)

如果term < currentTerm就立即回復(fù)

如果是第一個(gè)分塊(offset 為 0)就創(chuàng)建一個(gè)新的快照

在指定偏移量寫入數(shù)據(jù)

如果 done 是 false,則繼續(xù)等待更多的數(shù)據(jù)

保存快照文件,丟棄具有較小索引的任何現(xiàn)有或部分快照

如果現(xiàn)存的日志條目與快照中最后包含的日志條目具有相同的索引值和任期號(hào),則保留其后的日志條目并進(jìn)行回復(fù)

丟棄整個(gè)日志

使用快照重置狀態(tài)機(jī)(并加載快照的集群配置)

圖 13:一個(gè)關(guān)于安裝快照的簡(jiǎn)要概述。為了便于傳輸,快照都是被分成分塊的;每個(gè)分塊都給了跟隨者生命的跡象,所以跟隨者可以重置選舉超時(shí)計(jì)時(shí)器。

在這種情況下領(lǐng)導(dǎo)人使用一種叫做安裝快照的新的 RPC 來(lái)發(fā)送快照給太落后的跟隨者;見(jiàn)圖 13。當(dāng)跟隨者通過(guò)這種 RPC 接收到快照時(shí),他必須自己決定對(duì)于已經(jīng)存在的日志該如何處理。通??煺諘?huì)包含沒(méi)有在接收者日志中存在的信息。在這種情況下,跟隨者丟棄其整個(gè)日志;它全部被快照取代,并且可能包含與快照沖突的未提交條目。如果接收到的快照是自己日志的前面部分(由于網(wǎng)絡(luò)重傳或者錯(cuò)誤),那么被快照包含的條目將會(huì)被全部刪除,但是快照后面的條目仍然有效,必須保留。

這種快照的方式背離了 Raft 的強(qiáng)領(lǐng)導(dǎo)人原則,因?yàn)楦S者可以在不知道領(lǐng)導(dǎo)人情況下創(chuàng)建快照。但是我們認(rèn)為這

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/24617.html

相關(guān)文章

  • 編程界“頭牌”名媛:Python,14個(gè)與數(shù)據(jù)科學(xué)“曖昧情事”

    摘要:安裝安裝用于數(shù)據(jù)科學(xué)的的最佳方法是使用發(fā)行版。但這只是展示了構(gòu)建數(shù)據(jù)科學(xué)問(wèn)題的不同方式中的機(jī)器學(xué)習(xí)這是一個(gè)重要的主題,機(jī)器學(xué)習(xí)正在風(fēng)靡世界,是數(shù)據(jù)科學(xué)家工作的重要組成部分。 作為編程界的頭牌名媛,Python平易近人的態(tài)度和精明婉約的靈動(dòng)深得各個(gè)大佬歡心。比如:人工智能、web開(kāi)發(fā)、爬蟲、系統(tǒng)運(yùn)維、數(shù)據(jù)分析與計(jì)算等等。這幾位風(fēng)流多金的行業(yè)精英隨便哪個(gè)都能逆轉(zhuǎn)未來(lái)。 本文為你精心準(zhǔn)備了一...

    Labradors 評(píng)論0 收藏0
  • 后端好書閱讀與推薦(續(xù)六)

    摘要:可以通過(guò)大數(shù)據(jù)生態(tài)的一系列工具生態(tài)來(lái)解決大數(shù)據(jù)問(wèn)題數(shù)據(jù)分片主要有兩種方式哈希和范圍。哈希的問(wèn)題是范圍查詢支持不佳,范圍的問(wèn)題是可能冷熱數(shù)據(jù)不均。 后端好書閱讀與推薦系列文章:后端好書閱讀與推薦后端好書閱讀與推薦(續(xù))后端好書閱讀與推薦(續(xù)二)后端好書閱讀與推薦(續(xù)三)后端好書閱讀與推薦(續(xù)四)后端好書閱讀與推薦(續(xù)五)后端好書閱讀與推薦(續(xù)六) Elasticsearch權(quán)威指南 El...

    shleyZ 評(píng)論0 收藏0
  • 后端好書閱讀與推薦(續(xù)六)

    摘要:可以通過(guò)大數(shù)據(jù)生態(tài)的一系列工具生態(tài)來(lái)解決大數(shù)據(jù)問(wèn)題數(shù)據(jù)分片主要有兩種方式哈希和范圍。哈希的問(wèn)題是范圍查詢支持不佳,范圍的問(wèn)題是可能冷熱數(shù)據(jù)不均。 后端好書閱讀與推薦系列文章:后端好書閱讀與推薦后端好書閱讀與推薦(續(xù))后端好書閱讀與推薦(續(xù)二)后端好書閱讀與推薦(續(xù)三)后端好書閱讀與推薦(續(xù)四)后端好書閱讀與推薦(續(xù)五)后端好書閱讀與推薦(續(xù)六) Elasticsearch權(quán)威指南 El...

    z2xy 評(píng)論0 收藏0
  • ??思維導(dǎo)圖整理大廠面試高頻數(shù)組9: 刪除重復(fù)元素通解問(wèn)題, 力扣26/80??

    此專欄文章是對(duì)力扣上算法題目各種方法的總結(jié)和歸納, 整理出最重要的思路和知識(shí)重點(diǎn)并以思維導(dǎo)圖形式呈現(xiàn), 當(dāng)然也會(huì)加上我對(duì)導(dǎo)圖的詳解. 目的是為了更方便快捷的記憶和回憶算法重點(diǎn)(不用每次都重復(fù)看題解), 畢竟算法不是做了一遍就能完全記住的. 所以本文適合已經(jīng)知道解題思路和方法, 想進(jìn)一步加強(qiáng)理解和記憶的朋友, 并不適合第一次接觸此題的朋友(可以根據(jù)題號(hào)先去力扣看看官方題解, 然后再看本文內(nèi)容). 關(guān)...

    MasonEast 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<