摘要:前言本文給大家分享的題目是基于微服務(wù)以及的高可用架構(gòu)探索與實(shí)現(xiàn)。比如說(shuō)年大地震的時(shí)候我正好在東京,當(dāng)時(shí)在做一個(gè)金融系統(tǒng)的相關(guān)工作。那次大地震導(dǎo)致很多很多的問(wèn)題,雖然大地震不是在東京發(fā)生,但是還是給我們的系統(tǒng)造成了影響。
前言
本文給大家分享的題目是《基于DevOps、微服務(wù)以及K8S的高可用架構(gòu)探索與實(shí)現(xiàn)》。整個(gè)企業(yè)的高可用架構(gòu)面臨很多的挑戰(zhàn),面向微服務(wù)、容器化以及敏態(tài)交付,是我們現(xiàn)在的三駕馬車(chē),而今天提到的一個(gè)比較接近的概念叫Kubernetes、DevOps和微服務(wù)這三駕馬車(chē)也能夠幫助企業(yè)級(jí)應(yīng)用解決他們傳統(tǒng)的一些問(wèn)題。
本文給大家分享的主要內(nèi)容都是從金融和通信領(lǐng)域中的具體案例總結(jié)而來(lái),通過(guò)這次分享希望對(duì)大家能有所借鑒。主要內(nèi)容包括企業(yè)級(jí)高可用性架構(gòu)面臨的挑戰(zhàn),面臨這些內(nèi)憂外患的挑戰(zhàn)我們應(yīng)該怎樣做才能突破這樣的困境,有哪些原則和方法。
然后Kubernetes、DevOps和微服務(wù)這三架馬車(chē)如何各司其職為我們帶來(lái)很好的高可用性架構(gòu),以及大家也知道面臨的各種彈性的擴(kuò)容需求。比如說(shuō)我們的客戶(hù)在517電信日的時(shí)候,他們的需求可能是平時(shí)業(yè)務(wù)量的120多倍,這樣的情況下我們?cè)鯓舆M(jìn)行彈性擴(kuò)容,這都是我要跟大家分享的內(nèi)容。
企業(yè)級(jí)高可用性架構(gòu)的挑戰(zhàn)企業(yè)級(jí)高可用架構(gòu)面臨哪些挑戰(zhàn),其實(shí)有很多,可能有遇到天災(zāi)的挑戰(zhàn)。
比如說(shuō)2011年311大地震的時(shí)候我正好在東京,當(dāng)時(shí)在做一個(gè)金融系統(tǒng)的相關(guān)工作。那次大地震導(dǎo)致很多很多的問(wèn)題,雖然大地震不是在東京發(fā)生,但是還是給我們的系統(tǒng)造成了影響。
當(dāng)時(shí)根據(jù)我們的系統(tǒng)和容災(zāi)備份中心進(jìn)行合理調(diào)整,保證了我們的客戶(hù),因?yàn)槲覀兊目蛻?hù)也是整個(gè)亞洲很大的一家銀行,保證他的業(yè)務(wù)正常運(yùn)行,這一切都是我們提前需要考慮才能做到的。
除此之外還可能有很多人為的Miss帶來(lái)的問(wèn)題。比如說(shuō),我們的一個(gè)銀行客戶(hù),誤刪除根目錄,這樣的事情在十年之內(nèi)發(fā)生了兩次,其實(shí)只要保證節(jié)點(diǎn)的冗余性,就不難解決。
我們說(shuō)企業(yè)級(jí)高可用性架構(gòu)面臨的天災(zāi)人禍的挑戰(zhàn),我們?cè)鯓硬拍鼙U纤?/strong>
我們要事前考慮好這些因素。比如說(shuō)我們可能會(huì)有應(yīng)用程序的異常退出、有操作系統(tǒng)宕機(jī)、服務(wù)器的宕機(jī)、停電、大地震、人為操作失誤、訪問(wèn)量突然增大,原本是沒(méi)有問(wèn)題的,我們企業(yè)是高可用的,但是突然業(yè)務(wù)擴(kuò)展了100多倍。
我們?cè)谠O(shè)計(jì)時(shí)是有一個(gè)原則,比如按照10倍設(shè)計(jì),按照1.5倍測(cè)試,按照1.2倍發(fā)布這樣都是可以的。但是突然擴(kuò)大100多倍我的架構(gòu)是很難實(shí)現(xiàn)的,所以動(dòng)態(tài)擴(kuò)容也是一個(gè)重要的課題。
這些挑戰(zhàn)有這么多,其實(shí)我們還可以把整體的變得更加復(fù)雜。整個(gè)系統(tǒng)非常非常復(fù)雜,在整個(gè)金融領(lǐng)域當(dāng)中可以看到復(fù)雜的架構(gòu)比比皆是,復(fù)雜到什么程度呢?
舉個(gè)簡(jiǎn)單的例子,日本超大銀行的核心外匯系統(tǒng)來(lái)說(shuō),它大概有1500萬(wàn)行代碼,我們之前還討論過(guò)1500萬(wàn)行代碼是什么量級(jí)。2006年我在做松下手機(jī)的開(kāi)發(fā)時(shí),總的代碼大概是600萬(wàn)行,所以是3個(gè)手機(jī)的量,我們并行編譯需要8小時(shí),有4種操作系統(tǒng),5種編程語(yǔ)言,倒不是說(shuō)設(shè)計(jì)架構(gòu)時(shí)就要變成這樣,是因?yàn)楹軓?fù)雜的業(yè)務(wù)結(jié)合在一起就已經(jīng)是這樣的現(xiàn)狀。
整個(gè)這樣的一個(gè)系統(tǒng),怎樣才能保證高可用,我們有很多不同系統(tǒng)的集群,整個(gè)結(jié)合起來(lái)這么復(fù)雜、龐大的金融怎樣才能保證整體的可用性,而且我們還要重構(gòu)。這些給我們帶來(lái)都是非常大的挑戰(zhàn),而且變更越來(lái)越多,頻度也越來(lái)越大,還要求穩(wěn)定性,因?yàn)槲覀兊目蛻?hù)都會(huì)要求,你又要快又要好。
他們的要求也不過(guò)分,但是對(duì)于我們的實(shí)現(xiàn)來(lái)說(shuō),這其實(shí)是很難的。客戶(hù)有的時(shí)候說(shuō)我就改了一個(gè)Bug為什么不讓我上線。這么大的架構(gòu)我全編譯都要8個(gè)小時(shí),你改了這一行bug,那編譯的過(guò)程你看不見(jiàn)嗎,1500萬(wàn)行代碼,要編譯3個(gè)安卓手機(jī)。但是這些客戶(hù)不會(huì)說(shuō),他會(huì)說(shuō)我的同行他們做的就這么快,這都是我們面臨的壓力。
今天我也會(huì)給大家舉一些案例,金融我個(gè)人接觸的行業(yè)中也分為到兩種,有傳統(tǒng)的金融,他們還是以穩(wěn)為主,今天的一些案例中就是一些穩(wěn)的,還有一些是快的。所以我們的容器化并不一定都是需要快。
我們講三架馬車(chē),這三架馬車(chē)到底怎樣開(kāi),開(kāi)起來(lái)穩(wěn)不穩(wěn),怎樣進(jìn)行擴(kuò)展,這過(guò)程中我們需要注意什么,我們有些實(shí)踐,不敢說(shuō)最好的,但是可以給大家?guī)?lái)借鑒。
高可用性架構(gòu)整體設(shè)計(jì)整個(gè)來(lái)說(shuō)高可用有這么多的挑戰(zhàn),如何進(jìn)行整體的設(shè)計(jì)和架構(gòu)。我這里的話列出了一些簡(jiǎn)單的點(diǎn)。
高可用性架構(gòu)目標(biāo)我們說(shuō)一個(gè)系統(tǒng)比較好的可用性,我們說(shuō)它有良好的擴(kuò)展性,整體是容易維護(hù)的,最重要的對(duì)客戶(hù)來(lái)說(shuō),我這個(gè)系統(tǒng)是隨時(shí)用都是可用的,很簡(jiǎn)單,我的系統(tǒng)拿出去至少能夠跑起來(lái),客戶(hù)能訪問(wèn)。
所以我們講整體業(yè)務(wù)的連續(xù)性和穩(wěn)定性,對(duì)于我們高可用性架構(gòu)是最重要的。
我們業(yè)界經(jīng)常說(shuō)幾個(gè)9的目標(biāo),我們講99%其實(shí)是系統(tǒng)基本可用。99.9%,這個(gè)系統(tǒng)是具有高可用性的特點(diǎn),這是說(shuō),我們一年可以有8.8個(gè)小時(shí)可以把我們的系統(tǒng)停下來(lái)。更多來(lái)說(shuō),比如說(shuō)銀行,我們更多是做到4個(gè)9。這也結(jié)合了2017devops現(xiàn)狀調(diào)查報(bào)告來(lái)說(shuō),高績(jī)效的企業(yè),他的業(yè)界banch
mark,平均下來(lái)他的MTTR的時(shí)間大概在一小時(shí),也就是你的系統(tǒng)停一次,一年大概保4個(gè)9,如果停兩次的話,那4個(gè)9的高可用就保不住了。
但是我們不一定要我們的系統(tǒng)一定是為了沖幾個(gè)9,要看業(yè)務(wù)需求是否需要達(dá)到這個(gè)情況。我給客戶(hù)做的時(shí)候,會(huì)跟他說(shuō)你的高可用目標(biāo),為什么先列目標(biāo),因?yàn)槟繕?biāo)定下來(lái)后,你的成本就會(huì)出現(xiàn),如果1500萬(wàn)行代碼全部要4個(gè)9或者5個(gè)9的,其實(shí)我們是做不到的。我們核心的系統(tǒng)、關(guān)鍵的領(lǐng)域,甚至是2個(gè)9都無(wú)所謂。
有一個(gè)二八定律,80%的功能客戶(hù)基本上很少用,我們做的很復(fù)雜的功能,客戶(hù)都不用,這也是一個(gè)現(xiàn)狀。所以那些東西并不一定要達(dá)到4個(gè)9的可用性,所以目標(biāo)設(shè)定非常重要。
除此之外,RPO和 RTO,從業(yè)務(wù)恢復(fù)的角度以及數(shù)據(jù)連續(xù)性的角度,對(duì)我們高可用性進(jìn)行整體的規(guī)劃。我們國(guó)家2007年發(fā)布了容災(zāi)備份相關(guān)信息產(chǎn)業(yè)的標(biāo)準(zhǔn),將RPO和RTO分成六級(jí),大家有興趣的可以看一下,其實(shí)不同行業(yè)在做的時(shí)候應(yīng)該是先定目標(biāo),這個(gè)成本就出來(lái)了,然后再往下做高可用架構(gòu)的設(shè)計(jì),這樣才能往下細(xì)分。
比如我們要達(dá)到5個(gè)9,你一年只有5分鐘,我要這樣做。比如說(shuō)我們的應(yīng)用程序突然停了,既然停了把它重啟起來(lái)就可以了,無(wú)論哪種方式都是這樣的。但是關(guān)鍵是你是5個(gè)9,一年只有5分鐘怎么辦?你的策略就不一樣,你是不是應(yīng)該保證兩個(gè)方式雙方都能正常運(yùn)行的時(shí)候你再起另外一個(gè)。所以整體策略不同,成本也會(huì)不同。
高可用策略和手段整體的策略和手段有很多。我們提高可用最重要的一點(diǎn)是冗余。
我們會(huì)使用冗余的方式,你的一個(gè)application宕了,它要能訪問(wèn),那一定是在另一個(gè)地方有備份,客戶(hù)才會(huì)訪問(wèn)到。如果你的Note也宕了,一定是其他的地方也有備份。我們保證Application在一臺(tái)機(jī)器上有多重運(yùn)行,如果這臺(tái)機(jī)器宕了的話,在另一臺(tái)上也有運(yùn)行,無(wú)論是哪種方式,它都是基礎(chǔ)的策略。
除此之外,我們會(huì)結(jié)合成本,做Active-Standby或Active-Active的方式,然后我們做高可用的架構(gòu)其實(shí)是說(shuō),我們的兩臺(tái)機(jī)器都放上去,一臺(tái)機(jī)器一直是做一主一備,這對(duì)客戶(hù)來(lái)說(shuō)成本投入沒(méi)有這么好,我看不到收益,所以我們一般做Active-Active雙活。
比如我們做集群是保證節(jié)點(diǎn)級(jí)別的可用性。我們做服務(wù)多重化是保證應(yīng)用層級(jí)的高可用性。我們做容災(zāi)備份,就像剛才給大家舉的例子,2011年日本大地震,如果我們給客戶(hù)沒(méi)有做容災(zāi)備份的東西,他不可能依然能保證在整個(gè)過(guò)程中是可用的。
雖然是一主一從,但是兩者相互結(jié)合還是能保證他的服務(wù)正常運(yùn)行。但是除此之外,還有很多的因素。成本是無(wú)處不在。而且我們的客戶(hù)也會(huì)知道,容災(zāi)備份中心做成兩活其實(shí)是更好,但是成本會(huì)發(fā)生更大的變化。
另外我們平時(shí)的訓(xùn)練,因?yàn)檫@跟技術(shù)無(wú)關(guān),但是又非常的重要,因?yàn)槲铱催^(guò)很多的系統(tǒng),他們做得都很好,但是為什么他不敢切。
我看過(guò)太多很好的系統(tǒng),但是有的系統(tǒng)我也沒(méi)見(jiàn)過(guò),像2015年左右,紐約交易所停了218分鐘,這么龐大的一個(gè)系統(tǒng)停了218分鐘,后來(lái)我查了原因,他們說(shuō)是因?yàn)榧夹g(shù)的原因,后來(lái)我就沒(méi)看出因?yàn)槭裁醇夹g(shù)的原因。
但是我相信他一定會(huì)有容災(zāi)備份的策略,但是為什么不切。實(shí)際我接觸過(guò)很多企業(yè),他們訓(xùn)練不到位,導(dǎo)致他們不敢切,切過(guò)去OK,切回來(lái)怎么辦?可能就會(huì)出問(wèn)題。
除此之外,還有橫向的擴(kuò)容,我們的波峰來(lái)了,我們什么時(shí)候才能進(jìn)行擴(kuò)容,所以這個(gè)時(shí)候我們需要考慮。我們講跟DevOps進(jìn)行結(jié)合,我們監(jiān)控做到我們能夠確定什么時(shí)候進(jìn)行橫向擴(kuò)容。
比如說(shuō)DevOps的透明化和我們整體的可視化結(jié)合起來(lái),然后這些能夠保證我們系統(tǒng)的高可用性進(jìn)行很好地對(duì)應(yīng),這是整體的策略和手段,當(dāng)然還有很多,我只是列出了這幾個(gè)常見(jiàn)且重要的點(diǎn)。
要素和原則我們叫容器化、微服務(wù)和DevOps,是我們現(xiàn)在應(yīng)用容器化的三架馬車(chē)可能更敏捷的對(duì)應(yīng)。因?yàn)镵8S本身就是容器和容器編輯的平臺(tái),可以很好地進(jìn)行管理。我們使用這三架馬車(chē)如何才能保證我們的系統(tǒng)更加可用、方便和靈活。K8S是用什么樣的方式來(lái)保證它的高可用性,首先有三個(gè)重要的點(diǎn):
第一點(diǎn),K8S是以容器化為基礎(chǔ)的,運(yùn)行在它上面的應(yīng)該是一些容器,以容器形式存在的這些服務(wù),K8S 平臺(tái)保證了這些服務(wù)它本身是可用的。我們傳統(tǒng)的,自己寫(xiě)SOA其實(shí)也是一樣的,只是k8s做的更好,它把這些變成透明化了。
第二點(diǎn),我們保證K8S本身是可用的,因?yàn)镵8S保證它的集群運(yùn)行在這之上的服務(wù)是ok的,但是同時(shí),怎樣才能保證K8S它也是高可用的,消除這些單點(diǎn)我們也會(huì)說(shuō)到這些。
第三點(diǎn),當(dāng)我們業(yè)務(wù)的波峰來(lái)的時(shí)候我們?nèi)绾翁幚怼?/p>
然后我們講微服務(wù),微服務(wù)為什么要引入,各個(gè)企業(yè)有自己的想法。我們引入微服務(wù)有很多自己的想法,比如要簡(jiǎn)化,要解耦,要使我們的服務(wù)能夠獨(dú)立部署,它要能夠進(jìn)行整個(gè)是無(wú)狀態(tài)可回滾的,整個(gè)來(lái)說(shuō)我們是為了讓容器化變得更加簡(jiǎn)單,這些微服務(wù)要按照這樣的策略進(jìn)行設(shè)計(jì)。
我們講DevOps是怎樣做成橋梁和紐帶在微服務(wù)和K8S之間進(jìn)行溝通。首先我們使用DevOps的理念,微服務(wù)的一旦落地,它帶來(lái)的好處同時(shí)也給我們的部署也帶來(lái)有壓力,所以我們?nèi)绾巫龀掷m(xù)集成和持續(xù)交付,使得這些部署,應(yīng)微服務(wù)帶來(lái)的部署這種壓力得到緩解,這是我們Devops實(shí)踐需要考慮的事情。
同時(shí),我們通過(guò)環(huán)境的一致性,通過(guò)考慮安全的因素,使我們高可用性在很多方面得到整體的考慮。我們提到DevOps跟K8S自動(dòng)的可動(dòng)態(tài)的橫向的調(diào)整,K8S如何才能知道我們什么時(shí)候進(jìn)行橫向調(diào)整。我們需要監(jiān)控的機(jī)制,而我們DevOps的實(shí)踐中,我們需要讓整個(gè)的過(guò)程是透明的,可視的,所以我們通過(guò)使我們的系統(tǒng)具有整體監(jiān)控的能力,讓我們知道什么時(shí)候該橫向擴(kuò)容。
這是一個(gè)很簡(jiǎn)單的例子,我們說(shuō)整體的做一主多從的K8S架構(gòu)的話,可以看出,這就是簡(jiǎn)單的K8S的構(gòu)成。K8S可以做成一主多從,同時(shí)我們的ETCD使用集群的方式來(lái)保證它的服務(wù)OK。消除單點(diǎn)的話就是Master一主多備,這是非常典型的很簡(jiǎn)單的思路。無(wú)論哪種方式,我們都是要保證它的冗余度得到保證。
如何使得我們的微服務(wù)更加專(zhuān)注于業(yè)務(wù)的開(kāi)發(fā),我們?cè)谂c我們的客戶(hù)進(jìn)行實(shí)際應(yīng)用時(shí)也使用一些傳統(tǒng)開(kāi)箱即用的,比如說(shuō)Spring Cloud等一些組件。幫助他整體的下面的框架基本上就不用再進(jìn)行開(kāi)發(fā)了。
我們傳統(tǒng)用Tuxedo時(shí),都是要自己寫(xiě)。突然會(huì)發(fā)現(xiàn)壓力一下全部減輕了,我們只需要注重業(yè)務(wù)的開(kāi)發(fā),突然發(fā)現(xiàn)非常順暢。
我們講DevOps他更多地是一種融合,所以我們最佳實(shí)踐進(jìn)行結(jié)合,通過(guò)自動(dòng)化流水線,保證了自動(dòng)部署和自動(dòng)集成的穩(wěn)定性。
通過(guò)可視化的監(jiān)控來(lái)確認(rèn)我們什么時(shí)候可以動(dòng)態(tài)擴(kuò)容,通過(guò)一致性的環(huán)境來(lái)保證整個(gè)的流程是更加順暢的。
所以這是我們整體的一個(gè)架構(gòu)和思路。在很多的系統(tǒng)之中和客戶(hù)進(jìn)行推薦的時(shí)候我們基本上都是用這樣的方式。
Kubernetes的基礎(chǔ)服務(wù)下面我們講三架馬車(chē)第一架Kubernetes如何提供基礎(chǔ)服務(wù)。這些都是Kubernetes的基礎(chǔ)知識(shí),我們可以很容易地得到,但是我們講使用Kubernetes的時(shí)候,在整個(gè)的架構(gòu)中起到什么作用,還是剛才提到這三點(diǎn)。
第一點(diǎn),我們使用Kubernetes的RC或Daemonset這些東西,我們保證了這些服務(wù)是可以自愈的,簡(jiǎn)單來(lái)說(shuō)就是有人幫我檢測(cè)、重啟,這些策略都可以進(jìn)行調(diào)整的。
第二點(diǎn),Kubernetes本身是需要ETCD和Master始終是可用的,所以我們需要通過(guò)具體的策略來(lái)保證我們的K8S本身也是可用的,所以這兩點(diǎn)能保證整個(gè)集群是OK的。我們Kubernetes提供基礎(chǔ)的平臺(tái)和服務(wù),但是如果你的平臺(tái)和服務(wù)它本身是不穩(wěn)定的,也是無(wú)法達(dá)到整個(gè)系統(tǒng)高可用的。我們講這個(gè)平臺(tái)應(yīng)該比較厚重,同時(shí)也要比較穩(wěn)靠,這是我們需要考慮的,我們實(shí)際跟客戶(hù)落地的時(shí)候,這些點(diǎn)都需要考慮,我列出了其中重要的幾點(diǎn)。
我們消除單點(diǎn)的ETCD。ETCD是CoreOS發(fā)布的關(guān)于鍵值的分布式數(shù)據(jù)存儲(chǔ)。在Kubernetes之中,我們使用apiserver跟它進(jìn)行交互,如果它不穩(wěn)定,我們數(shù)據(jù)的保存就沒(méi)有保障,所以我們要消除它的單點(diǎn),那做一個(gè)集群就可以了。
我們做一主多備的Master。我們的Active Master一旦壞掉了切到另外一個(gè),很簡(jiǎn)單就是冗余,多放兩個(gè)在那里,壞了就切過(guò)去。理論上來(lái)說(shuō)都非常簡(jiǎn)單和單純,但是就用靠這種單純和簡(jiǎn)單的方式,就能保證我們的客戶(hù)的整體系統(tǒng)比較穩(wěn)定。
就像在311地震的時(shí)候,我們給一個(gè)日本的核心銀行的系統(tǒng),做了一主一從的方式就能保證系統(tǒng)是高可用,所以我們事前需要考慮,同時(shí)考慮成本和整體策略,然后給客戶(hù)提供一個(gè)價(jià)錢(qián)和其他東西結(jié)合的一個(gè)方案。
第三點(diǎn),就是Kubernetes能夠應(yīng)付現(xiàn)在傳統(tǒng)金融在做動(dòng)態(tài)擴(kuò)容時(shí)很難做到的一點(diǎn)。使用傳統(tǒng)的方式,當(dāng)客戶(hù)想追加節(jié)點(diǎn)的時(shí)候很困難。客戶(hù)想增加一個(gè)節(jié)點(diǎn)時(shí)會(huì)發(fā)現(xiàn)非常困難。
我們傳統(tǒng)的方式做集群的話,我們可以做雙機(jī)或者多機(jī),或者是做其它的都可以跑。但是我要加一個(gè)節(jié)點(diǎn)很困難,大家知道如果我們開(kāi)始做架構(gòu)時(shí),上來(lái)就是說(shuō)你使用了Kubernetes這種神器,或者是你程序本身都是容器化的,你就碰不到這種困難。
但是如果你從十幾年前開(kāi)始做架構(gòu),會(huì)看到傳統(tǒng)的這種架構(gòu)一步步怎樣走過(guò)來(lái)的時(shí)候你就會(huì)發(fā)現(xiàn),這些真的是很厲害的神器。
為什么傳統(tǒng)金融在往這方面靠的原因,我們加一個(gè)Node的時(shí)候,做一個(gè)雙機(jī)集群,我們要自己劃磁盤(pán),自己劃磁盤(pán)的仲裁,做心跳線,做設(shè)定。雖然做得很快但是也特別費(fèi)工夫,關(guān)鍵的是對(duì)客戶(hù)來(lái)說(shuō),你要把這些機(jī)器停下,這些是要命的,而且花了很多的錢(qián),而且對(duì)于K8S平臺(tái)來(lái)說(shuō)這些都是透明的。
這是對(duì)客戶(hù)來(lái)說(shuō)非常有意義的點(diǎn)。也是我們推它的原因。在使用監(jiān)控,首先第一步看到整個(gè)的趨勢(shì),問(wèn)題會(huì)不會(huì)出現(xiàn)警告。同時(shí)對(duì)我們的動(dòng)態(tài)擴(kuò)容提供輸入。
對(duì)動(dòng)態(tài)擴(kuò)容提供輸入,我們整個(gè)動(dòng)態(tài)擴(kuò)容怎么做?我們做了簡(jiǎn)單的整理。其實(shí)一旦你把所有的條件做好,剩下的都非常簡(jiǎn)單了。
我們有些通信的客戶(hù)可能在波峰的時(shí)候可能他的具體的業(yè)務(wù)量達(dá)到平時(shí)的一百多倍,這種情況下怎么辦,找到時(shí)間點(diǎn)擴(kuò)容就可以了。
我們還是按照步驟,定義業(yè)務(wù)、系統(tǒng)資源的指標(biāo),在這種情況下擴(kuò)幾個(gè)pod,然后采集數(shù)據(jù)。那我們?cè)趺粗肋@些是可以進(jìn)行擴(kuò)展的,然后具體的監(jiān)控是實(shí)現(xiàn)說(shuō)我看系統(tǒng)的日志和業(yè)務(wù)的日志我們可以擴(kuò)了。在Kubernetes或Swarm層上面一條命令就可以做到了,這就已經(jīng)很簡(jiǎn)單了。
但是最關(guān)鍵的是我們之前需要做的這些,監(jiān)控怎樣做好,我們給客戶(hù)的最佳實(shí)際案例是這樣做的,不要上來(lái)就開(kāi)始做這個(gè)自動(dòng)。自動(dòng)化其實(shí)可以做到最后再做,我們要保證整個(gè)流程是平穩(wěn)的。
比如說(shuō)舉個(gè)簡(jiǎn)單的例子,我們?cè)诮鹑诘南到y(tǒng)是這樣做的,我們?nèi)绻胱鍪裁礃拥恼{(diào)整,比如說(shuō)我要做這樣的動(dòng)態(tài)調(diào)整,我會(huì)把整個(gè)的東西打到日志,把空跑的狀態(tài)確認(rèn)出來(lái),然后根據(jù)事后我們進(jìn)行分析他算錯(cuò)沒(méi)算錯(cuò)。做完之后,再做動(dòng)態(tài)的擴(kuò)展,動(dòng)態(tài)擴(kuò)展相當(dāng)于一個(gè)利器,很好用,但是用壞了也很危險(xiǎn),在具體實(shí)踐的時(shí)候,我們跟客戶(hù)實(shí)踐了以后才會(huì)做。
如果Kubernetes提供了這樣一個(gè)基礎(chǔ)服務(wù),微服務(wù)就很輕松了。比如說(shuō)我們傳統(tǒng)在做Tuxedo架構(gòu)的時(shí)候,我們做微服務(wù)的自動(dòng)重啟,壞掉了怎么辦?如果使用自己的SOA架構(gòu),你在里面寫(xiě)循環(huán),你自己總不能啟自己,需要有一個(gè)守護(hù)進(jìn)程在后面做,守護(hù)進(jìn)程宕了怎么辦?因?yàn)槠髽I(yè)級(jí)高可用架構(gòu),尤其是銀行不可能像目前初創(chuàng)公司的做法,他要求他的系統(tǒng)一定是非常穩(wěn)定的,你守護(hù)進(jìn)程壞掉我也得保證,所以我們一般會(huì)再寫(xiě)一個(gè),再壞了怎么辦,沒(méi)完沒(méi)了的,所以那個(gè)要靠監(jiān)控來(lái)做。
你要使用Tuxedo的話,就很簡(jiǎn)單,在里面設(shè)定一個(gè)什么時(shí)候這個(gè)Sever等于Y,這個(gè)架構(gòu)基本可以保證服務(wù)的多重化或者節(jié)點(diǎn)之間的控制。但是有一個(gè)很不好做的東西時(shí)什么呢。這是一個(gè)整體的SOA架構(gòu),你要進(jìn)行全部編譯,這意味著你做服務(wù)動(dòng)態(tài)調(diào)整要通過(guò)編譯來(lái)做,這就很麻煩了。這個(gè)相對(duì)于Kubernetes的方式很不靈活。
專(zhuān)注于業(yè)務(wù)實(shí)現(xiàn)的微服務(wù)架構(gòu)使用了Kubernetes這種方式后,就會(huì)更加靈活,使我們的服務(wù)專(zhuān)注于服務(wù)的架構(gòu)開(kāi)發(fā)。
即使是這樣,我們依然有很多的東西需要考慮,我們?yōu)槭裁催M(jìn)行微服務(wù)的設(shè)計(jì)和架構(gòu),這有很多很多的痛點(diǎn)。
就是說(shuō)我們大型的系統(tǒng)一旦出來(lái),就像多米諾骨牌一樣,你拉其中的一塊,就會(huì)整個(gè)轟塌。以我十幾年的工程師經(jīng)驗(yàn),這個(gè)過(guò)程是非常痛苦的,痛苦的人都知道怎么來(lái)的。
我只改了一行代碼,為什么整個(gè)程序宕了,整個(gè)應(yīng)用毀了,這種情況會(huì)出現(xiàn)的。因?yàn)殡S著年久失修,這些大型的系統(tǒng),它會(huì)成為巨石一樣存在,誰(shuí)都不敢改,改起來(lái)成本又非常大,維護(hù)的成本也非常高。
我接觸過(guò)很多大型項(xiàng)目,跟他們一起做他們做得非常優(yōu)秀,但是即使這么優(yōu)秀的企業(yè)我們還是發(fā)現(xiàn)了很多有意思的事情。
比如說(shuō)當(dāng)年Alpha推出市場(chǎng)的時(shí)候,原本在Alpha上運(yùn)行的話我們轉(zhuǎn)到Hpux上,當(dāng)然有一部分跑到了IBM的AIX上,但是無(wú)論你跑在哪種上面,如果有C這種通過(guò)編譯型語(yǔ)言的話,你要進(jìn)行重新編譯和優(yōu)化。
一個(gè)很有趣的規(guī)律就是超過(guò)百萬(wàn)行級(jí)的代碼我們都會(huì)發(fā)現(xiàn)非常低級(jí)的bug,不管系統(tǒng)多么優(yōu)秀。有一條到現(xiàn)在沒(méi)破,我們知道像C這種父子語(yǔ)句和判斷語(yǔ)句肯定會(huì)有用混的,If寫(xiě)成父子語(yǔ)句的,有專(zhuān)門(mén)的把兩行寫(xiě)成一行,就是為了省一行空間的寫(xiě)法也有。我們明明確確的根據(jù)上下文判斷就是一個(gè)進(jìn)或不進(jìn),改不改。這就陷入兩難,因?yàn)樗猩习偃f(wàn)的代碼。
一個(gè)工程師我只負(fù)責(zé)以前在Alpha上面跑,現(xiàn)在在Hpux上跑,你們不是跟我說(shuō),我只是換一個(gè)機(jī)器,剩下都OK嗎,為什么不OK了?所以我們不敢改,因?yàn)楹芏鄷r(shí)候時(shí)錯(cuò)錯(cuò)得正,你改了這個(gè)地方其它地方還有一個(gè)錯(cuò),最后結(jié)果正確的我怎么知道。
這個(gè)難點(diǎn)在于,還是整個(gè)的耦合度沒(méi)有拆分,這種情況下如果你的功能很小的話那就很好辦了。如果部署能夠獨(dú)立化,解耦做得很好,簡(jiǎn)化做得很好,規(guī)模又小型化,這樣我們知道這塊影響到哪兒,大不了我把它重新用backup運(yùn)行。我知道它影響到哪個(gè)地方,只有不知道,我們才害怕,而且不知道可能真會(huì)出現(xiàn)各種問(wèn)題。
所以這個(gè)才是我們實(shí)際與企業(yè)級(jí)客戶(hù)在推的時(shí)候遇到的問(wèn)題,企業(yè)級(jí)用戶(hù)痛點(diǎn)也在這里,因?yàn)榭蛻?hù)很多時(shí)候就問(wèn)我,我改一行代碼為什么要花這么長(zhǎng)的時(shí)間,我跟他說(shuō)一天為什么花這么長(zhǎng)的時(shí)間。確實(shí)要花這么長(zhǎng)時(shí)間,因?yàn)槟阆到y(tǒng)太復(fù)雜了。我們解耦以后可以治這個(gè)病,但是整個(gè)的過(guò)程也會(huì)帶來(lái)其他的問(wèn)題。所以我們整個(gè)過(guò)程需要進(jìn)行考慮。
我們使用Spring Cloud,可以使我們過(guò)程中更加方便。通過(guò)適當(dāng)冗余,使用多個(gè)Eureka服務(wù)端,這樣就能保證保證服務(wù)注冊(cè)不會(huì)停止。如果我們做Tuxedo的架構(gòu)話要自己寫(xiě),我們使用Eureka就更加方便。
我們還要考慮負(fù)載均衡,像Ribbon這種客戶(hù)端。我想大家做過(guò)SOA開(kāi)發(fā),對(duì)這種策略都不難進(jìn)行,就是有所反饋。比如說(shuō)我們就講,我壞了應(yīng)該怎樣重啟,要加權(quán)、隨機(jī)要重啟,這臺(tái)壞掉了我看另外一臺(tái)機(jī)器有幾個(gè),跑在另外一臺(tái)機(jī)器上,自己寫(xiě)這個(gè)很痛苦的。這些如果使用了開(kāi)箱即用的東西會(huì)整體地加快我們的速度。
除此以外還有很多,我再列舉一個(gè)配置中心。我為什么提它呢。我們講三架馬車(chē),最終一架是DevOps,像Spring Cloud也好,我們推DevOps時(shí),我們推薦使用一套的部署機(jī)制,你不同的環(huán)境可以通過(guò)不同的配置來(lái)實(shí)現(xiàn),我們認(rèn)為Spring Cloud是它對(duì)DevOps的一種微服務(wù)發(fā)布方式,我們通過(guò)整體的具體實(shí)踐進(jìn)行結(jié)合使得發(fā)布更加方便和順暢,更多地是與DevOps進(jìn)行結(jié)合。
有這樣的東西開(kāi)箱即用,對(duì)于微服務(wù),我們就很容易寫(xiě)我們的SQL語(yǔ)句,實(shí)現(xiàn)業(yè)務(wù)邏輯,就會(huì)非常簡(jiǎn)單,實(shí)際在使用的時(shí)候,尤其是容器化的過(guò)程中IP會(huì)變來(lái)變?nèi)ィ@些問(wèn)題都會(huì)帶來(lái)困難的點(diǎn)。但是想想你要從零開(kāi)始創(chuàng)建這些東西,它的成本是值得的。雖然有些人說(shuō)你沒(méi)辦法做這些東西,但是你看看傳統(tǒng)企業(yè)痛苦的程度。
DevOps助力全生命周期的高可用性我們講DevOps能夠在其中起到橋梁和紐帶的作用,輔助我們?nèi)荞R車(chē),容器化的服務(wù)能夠更好的落地實(shí)踐。具體地有哪些點(diǎn),我列出了這樣一些點(diǎn)。
環(huán)境一致性我們強(qiáng)調(diào)開(kāi)發(fā)和測(cè)試環(huán)境、生產(chǎn)環(huán)境的一致性。因?yàn)殚_(kāi)發(fā)環(huán)境,經(jīng)常會(huì)有不同環(huán)境的開(kāi)發(fā),可能會(huì)帶來(lái)很多的問(wèn)題。測(cè)試環(huán)境的話,由于測(cè)試和開(kāi)發(fā)環(huán)境的不同也會(huì)帶來(lái)問(wèn)題,比如說(shuō)你測(cè)試的代碼和開(kāi)發(fā)的版本不一樣,這些不必要的消費(fèi)都會(huì)帶來(lái)不必要的時(shí)間。
所以這些都是需要我們考慮的,另外我們引入安全掃描的機(jī)制。因?yàn)?015年左右我看過(guò)一個(gè)研究,對(duì)于Docker Hub上面的鏡像進(jìn)行分析,大概有30%-40%的鏡像是不安全的。
從今年開(kāi)始Docker也是在最貴的那版里面引入鏡像掃描的機(jī)制,同時(shí)CoreOS也提出了Clair,所以建議大家有空回去下一個(gè),像Clair這樣的東西對(duì)你的鏡像掃描一下。
2014年的Heartbleed大家印象很深刻,那個(gè)心臟流血的,那個(gè)一直在流血,心臟就會(huì)失血而死亡,你可能就要搭橋,所有的買(mǎi)單都是企業(yè)級(jí)的客戶(hù)來(lái)做,它要為你對(duì)安全的忽視來(lái)買(mǎi)單,這一切有可能是我們不能承受的,因?yàn)樗谛呐K上。我建議大家一定要下這樣的東西看一下到底有多少的CVE。
然后生產(chǎn)環(huán)境保持一致性,這是理想的,但至少要達(dá)到 Infrastructure as Code。這考慮到什么呢,如果你的生產(chǎn)環(huán)境的一個(gè)節(jié)點(diǎn)突然壞掉怎么辦?尤其是那些年久失修的系統(tǒng),客戶(hù)說(shuō)給你拿一個(gè)機(jī)器給我立即換上,這是很簡(jiǎn)單的事情,那有太多的手工作業(yè),你把這些手工作業(yè)全部都變成代碼放到你的SVN或Git上,一定要這樣做,我們?cè)谕七@樣的實(shí)踐過(guò)程中也碰到很多的慣性的阻力,但是我們認(rèn)為這樣的實(shí)踐很重要。
可定制流水線
我們講可定制的流水線是非常重要的,安全檢查也非常重要。可以定制的,可以提高我們CI/CD的流水線??梢允褂瞄_(kāi)源的工具,也可以使用商用的工具。根據(jù)DORA調(diào)查,你使用可定制的話可以帶來(lái)更好的效果。
監(jiān)控,可以使得彈性擴(kuò)容更加容易。
我們的一些客戶(hù),我們平時(shí)的業(yè)務(wù)量跟波峰的業(yè)務(wù)量相比是1%甚至更多,這種情況下怎么辦?
彈性擴(kuò)容需求下的高可用性我們講的三架馬車(chē)每塊需要做什么事情,在容器化的基礎(chǔ)之上進(jìn)行解耦和優(yōu)化,同時(shí)DevOps要監(jiān)控、判斷,同時(shí)最重要的一點(diǎn),我們要強(qiáng)調(diào)一下DevOps我們提倡的理念是Fail Fast,我個(gè)人認(rèn)為這不是為了讓我們die fast,你要做好我們的Plan B,我們r(jià)ecover plan,如果一旦失敗了怎么辦,如果事前不想好那真的有可能die fast。
所以我們提倡跟客戶(hù)說(shuō)你要Fail Fast,要戴好安全帶,這點(diǎn)非常重要。根據(jù)DORA的調(diào)查,2017比2016年相比,我們的速度得到了明顯的提高,但是那些低績(jī)效的企業(yè),他們?cè)贛TTR的修復(fù)時(shí)間比去年還要惡劣,這為什么?快了但是沒(méi)考慮穩(wěn)。
我們使用K8S能夠很容易的進(jìn)行橫向擴(kuò)展。具體的策略,通過(guò)確定交易的指標(biāo)和資源使用情況,確認(rèn)什么時(shí)候進(jìn)行水平擴(kuò)容,取一下業(yè)務(wù)日志和系統(tǒng)日志進(jìn)行監(jiān)控和計(jì)算然后告訴K8S擴(kuò)容它就擴(kuò)容,就是這么簡(jiǎn)單,但是實(shí)際應(yīng)用的時(shí)候有很多的項(xiàng),你在這個(gè)過(guò)程要保證安全,穩(wěn)定地?cái)U(kuò)容。
我們通過(guò)應(yīng)用的多重啟動(dòng),來(lái)保證應(yīng)用的可靠。Front office和back office 進(jìn)行前端的業(yè)務(wù)和后端的審批,這都非常常見(jiàn),大部分都執(zhí)行這樣的做法。
另外,我們過(guò)去傳統(tǒng)來(lái)做,可以看到整體的集群非常復(fù)雜,你有文件集群、應(yīng)用集群、認(rèn)證集群、RAC集群。而且這些資源相互之間協(xié)調(diào)非常痛苦,如果你出了問(wèn)題了,依然有很大程度的可用性。
但全壞掉了,我們通過(guò)什么辦法。通過(guò)共享存儲(chǔ)和網(wǎng)絡(luò)結(jié)合起來(lái),跟容災(zāi)備份中心結(jié)合起來(lái),它的數(shù)據(jù)一旦過(guò)去之后,另外一套系統(tǒng)結(jié)合起來(lái),可以使它能夠保證數(shù)據(jù)中心級(jí)別的可用性。
應(yīng)用級(jí)別可用性,節(jié)點(diǎn)級(jí)別的可用性以及數(shù)據(jù)中心級(jí)別的可用性,我們都能達(dá)到。同時(shí),這種傳統(tǒng)的問(wèn)題點(diǎn),客戶(hù)也問(wèn)過(guò)我這個(gè)問(wèn)題,他說(shuō),我加一個(gè)node,你們?yōu)槭裁椿ㄎ疫@么多錢(qián)。
有一次,我們跟他說(shuō)應(yīng)用級(jí)別的資源不夠了,加一個(gè)resource吧,他的文件集群依然有resource,你告訴我應(yīng)用集群不夠了,你用它的不好嗎。我說(shuō),作為一個(gè)工程師來(lái)說(shuō),這個(gè)很難。他說(shuō)我不管為什么難,我只看到我的系統(tǒng),它依然有一部分是閑的,你沒(méi)有做到。它做不到并不表示其他做不到,比如K8S就可以做到。
案例 2這是一個(gè)典型的案例,是跟我們通信領(lǐng)域的一個(gè)客戶(hù)做的在PaaS平臺(tái)上運(yùn)行微服務(wù)的架構(gòu)。我們也實(shí)現(xiàn)了多Kubernetes集群的狀態(tài)下,我們的雙中心的這樣一個(gè)應(yīng)用。雙中心雙活,整體的話與剛才那個(gè)例子相比是有優(yōu)點(diǎn)的。同時(shí)我們講我們實(shí)現(xiàn)了按需擴(kuò)容,怎樣進(jìn)行按需擴(kuò)容,其實(shí)就是監(jiān)控,監(jiān)控的過(guò)程中注意安全,我們定期對(duì)客戶(hù)安全進(jìn)行掃描。希望大家注重安全,不要認(rèn)為官方鏡像的就很可靠。
我們會(huì)根據(jù)我們業(yè)務(wù)的,比如說(shuō)我們達(dá)到300單/每秒業(yè)務(wù)的要求就會(huì)擴(kuò)容。你CPU連續(xù)超過(guò)一段時(shí)間都超過(guò)了75%,那好生成一個(gè)Pod。很簡(jiǎn)單,所有這一切源于需求。我們剛剛提到了517電信日,訂單的業(yè)務(wù)量增加126倍;京東618訂單量也相當(dāng)于平時(shí)10倍,這些都是給我們傳統(tǒng)方式帶來(lái)挑戰(zhàn)的。像剛才金融的方式,就很難解決這個(gè)問(wèn)題。
我們可以看到在應(yīng)用級(jí)別的可用性,以及節(jié)點(diǎn)級(jí)別的可用性和數(shù)據(jù)中心的可用性,我們都可以以簡(jiǎn)單的例子進(jìn)行分享。其實(shí)我們與電信客戶(hù)做了很多的設(shè)計(jì),跟金融的也有很多,今天舉出這兩個(gè)例子,主要是讓大家進(jìn)行對(duì)比。很多時(shí)候,我們?cè)谶M(jìn)行一個(gè)轉(zhuǎn)型,轉(zhuǎn)型的過(guò)程中怎樣進(jìn)行參照和思考,這是我今天給大家?guī)?lái)的分享的主要內(nèi)容。
轉(zhuǎn)載網(wǎng)址:https://mp.weixin.qq.com/s/7L...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/33018.html
摘要:本文是網(wǎng)易容器云平臺(tái)的微服務(wù)化實(shí)踐系列文章的第一篇。網(wǎng)易容器云平臺(tái)的前身是網(wǎng)易應(yīng)用自動(dòng)部署平臺(tái),它能夠利用云提供的基礎(chǔ)設(shè)施,實(shí)現(xiàn)包括構(gòu)建和部署一體化在內(nèi)的整個(gè)應(yīng)用生命周期管理。目前網(wǎng)易云容器服務(wù)團(tuán)隊(duì)以的方式管理著微服務(wù),每周構(gòu)建部署次數(shù)。 此文已由作者馮常健授權(quán)網(wǎng)易云社區(qū)發(fā)布。 歡迎訪問(wèn)網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運(yùn)營(yíng)經(jīng)驗(yàn)。 摘要:網(wǎng)易云容器平臺(tái)期望能給實(shí)施了微服務(wù)架構(gòu)的團(tuán)隊(duì)提供完...
摘要:王磊此次演講的題目為容器新技術(shù)架構(gòu)下的運(yùn)維實(shí)踐,詳細(xì)為大家講解了在基于構(gòu)建容器的過(guò)程中,如何以應(yīng)用為中心,通過(guò)新的技術(shù)工具對(duì)服務(wù)節(jié)點(diǎn)集群平臺(tái)等多個(gè)方面進(jìn)行管理運(yùn)維,提高系統(tǒng)的自動(dòng)化運(yùn)維能力。 2018年11月16-17日,運(yùn)維&容器技術(shù)盛會(huì) CNUTCon 全球運(yùn)維技術(shù)大會(huì)在上?!す獯髸?huì)展中心成功舉辦。時(shí)速云聯(lián)合創(chuàng)始人兼 CTO 王磊受邀參加此次大會(huì),并發(fā)表主題演講。王磊此次演講的題目...
摘要:由于,容器任務(wù)被簡(jiǎn)化,包括部署操作水平自動(dòng)伸縮滾動(dòng)更新金絲雀部署和管理監(jiān)視資源應(yīng)用健康檢查調(diào)試應(yīng)用等。支持和培訓(xùn)當(dāng)企業(yè)準(zhǔn)備應(yīng)用容器化戰(zhàn)略時(shí),管理平臺(tái)提供商是否向企業(yè)保證的支持以及培訓(xùn)在所有可用的選擇中,只有少數(shù)的一些公司,如支持了這些選項(xiàng)。 作為時(shí)下最火熱的熱點(diǎn)詞匯:Kubernetes,其擁有成熟的社區(qū),大公司的背景等等獲得了大部分人的認(rèn)可,很多公司都在準(zhǔn)備啟用Kubernetes,...
摘要:此文已由作者劉超授權(quán)網(wǎng)易云社區(qū)發(fā)布。五更加適合微服務(wù)和的設(shè)計(jì)好了,說(shuō)了本身,接下來(lái)說(shuō)說(shuō)的理念設(shè)計(jì),為什么這么適合微服務(wù)。相關(guān)閱讀為什么天然適合微服務(wù)為什么天然適合微服務(wù)為什么天然適合微服務(wù)文章來(lái)源網(wǎng)易云社區(qū) 此文已由作者劉超授權(quán)網(wǎng)易云社區(qū)發(fā)布。 歡迎訪問(wèn)網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運(yùn)營(yíng)經(jīng)驗(yàn) 四、Kubernetes 本身就是微服務(wù)架構(gòu) 基于上面這十個(gè)設(shè)計(jì)要點(diǎn),我們?cè)倩貋?lái)看 Kube...
摘要:華為云華為云在云原生這場(chǎng)游戲中,最具競(jìng)爭(zhēng)力的玩家之一。年,金山云在云原生領(lǐng)域推出了三款重磅產(chǎn)品星曜裸金屬服務(wù)器云服務(wù)器和云盤(pán)。在線上智博會(huì)上,浪潮云發(fā)布了經(jīng)過(guò)全新迭代升級(jí)的浪潮云,進(jìn)一步提升平臺(tái)云原生服務(wù)能力。面對(duì)數(shù)字時(shí)代復(fù)雜系統(tǒng)的不確定性,傳統(tǒng)的 IT 應(yīng)用架構(gòu)研發(fā)交付周期長(zhǎng)、維護(hù)成本高、創(chuàng)新升級(jí)難,煙囪式架構(gòu),開(kāi)放性差、組件復(fù)用度低,這些都成為了企業(yè)業(yè)務(wù)快速增長(zhǎng)的瓶頸。而云原生以其敏捷、...
閱讀 1896·2021-11-11 16:55
閱讀 2104·2021-10-08 10:13
閱讀 755·2019-08-30 11:01
閱讀 2166·2019-08-29 13:19
閱讀 3292·2019-08-28 18:18
閱讀 2630·2019-08-26 13:26
閱讀 588·2019-08-26 11:40
閱讀 1879·2019-08-23 17:17