摘要:數(shù)據(jù)中心操作系統(tǒng)以和等新一代創(chuàng)業(yè)公司為代表,開始提出數(shù)據(jù)中心操作系統(tǒng)的概念。數(shù)據(jù)中心操作系統(tǒng)與開發(fā)方有一個非常清晰和低成本的接入接口,完全省去了運維這個角色寫膠水腳本的必要性,從而徹底顛覆這個崗位。
崗位價值有:
權(quán)限縮小
提供操作安全的保險服務(wù)
提供操作的可擴展性
提供業(yè)務(wù)和資源能見度
屏蔽資源的部署細節(jié)
靜態(tài)資源調(diào)平
動態(tài)資源調(diào)平
故障處理和善后
權(quán)限縮小通過配置文件修改一個后臺參數(shù)需要登錄權(quán)限,文件修改權(quán)限,甚至進程起停權(quán)限。這些運營環(huán)境的權(quán)限需要盡可能的收歸到很少的人的手里以控制風險。業(yè)務(wù)運維初期以人工接口的方式提供服務(wù),后期以web應(yīng)用的方式提供自助服務(wù)。如果后臺開發(fā)人員做得比較完善可以直接提供web應(yīng)用提供自助服務(wù)。但是很多時候業(yè)務(wù)開發(fā)部門的主要 KPI 不是提供運維的方便性,所以使得業(yè)務(wù)運維部門需要自己去開發(fā)這些管理性質(zhì)的 web 應(yīng)用。
常規(guī)的新服務(wù)器上架版本發(fā)布都需要登錄權(quán)限,文件修改權(quán)限等幾乎不受限制的權(quán)限。運維提供人工接口或者web應(yīng)用的方式把權(quán)限縮小之后對外提供服務(wù)。
操作安全可以量化為操作次數(shù)與操作引起的故障的比例關(guān)系。運維部門初期以認真仔細的工作態(tài)度提供高標準的操作服務(wù)。后期以高可重復(fù)性高一致性的自動化系統(tǒng)提供安全保險,把每一次都不大一樣的人工操作變成每次執(zhí)行相同的腳本由計算機執(zhí)行。業(yè)務(wù)運維售賣的是一種保險服務(wù),其實質(zhì)和保險公司一樣是以風險來核算成本的。
傳統(tǒng)的操作安全也存在兩點問題:
即便是自動化的腳本并不能帶來一致性的保障。因為每次執(zhí)行自動化腳本都可能對現(xiàn)網(wǎng)狀態(tài)產(chǎn)生影響,人工的手工操作會使之雪上加霜。實際上每次自動化執(zhí)行之前的現(xiàn)網(wǎng)狀態(tài)都可能不同,結(jié)果是一臺服務(wù)器使用的時間越久運維風險越高。
版本交付方式的多樣化,操作現(xiàn)網(wǎng)環(huán)境的多樣化極大地提高了風險系數(shù)。通過標準化版本交付方式,標準化進程和服務(wù)起停與依賴管理方式可以用一套自動化系統(tǒng)對接各種差異化的應(yīng)用,減少中間的膠水腳本帶來的操作安全隱患。攜程出的運維事故說明了其操作安全是沒有保障的。當我們把一個數(shù)據(jù)中心上的硬盤整體格式化之后,其上的應(yīng)用多久可以恢復(fù)很好的度量了操作方面的水平。
低風險的操作是頻繁變更的前提,也是提高業(yè)務(wù)敏捷性的前提。
提供操作的可擴展性可以迅速地完成跨數(shù)據(jù)中心海量 IP 的操作變更
操作的完成速度是頻繁變更的前提,也是提高業(yè)務(wù)敏捷性的前提。
與權(quán)限收歸性質(zhì)的后臺 web 應(yīng)用類似。理論上來說后臺開發(fā)會提供一些管理類的界面去查看業(yè)務(wù)的運營指標,以及程序和資源效率方面的監(jiān)控指標。但是因為業(yè)務(wù)部門的 KPI 是以收入為導(dǎo)向的。很多運營決策用的指標,性能調(diào)優(yōu)性質(zhì)的指標,故障判別類的指標都需要由業(yè)務(wù)運維部門來采集展示和告警。
屏蔽資源的部署細節(jié)從 IDC 選址,專線規(guī)劃到給進程配置文件配置 IP 地址。讓開發(fā)人員關(guān)心邏輯與邏輯拓撲,屏蔽了部署細節(jié),減少了開發(fā)的工作量。讓昂貴的專業(yè)開發(fā)人員專注于更有價值的事情上。
靜態(tài)資源調(diào)平利用虛擬機,container,同機部署多個進程等各種手段提高主機的利用率。合理規(guī)劃機架和出口分布,提高網(wǎng)絡(luò)的利用率。
靜態(tài)資源調(diào)平主要靠優(yōu)化部署來完成。兩次調(diào)平之間一般需要調(diào)用比較慢的重部署流程(比如ssh執(zhí)行腳本起停進程等),甚至可能包含人工操作環(huán)節(jié)。
靜態(tài)資源調(diào)平的顆粒度是 IP。
動態(tài)資源調(diào)平一般說法是動態(tài)擴所容。和靜態(tài)資源調(diào)平的主要的區(qū)別是一般不以部署流程去調(diào)平資源,而是以更快的調(diào)整負載均衡,起停進程的方式完成,完全不能包含人工操作環(huán)節(jié)。
動態(tài)資源調(diào)平要求運維必須從 IP 級別的管理水平提高的到進程和服務(wù)級別。
大部分時候業(yè)務(wù)都會提供高可用的系統(tǒng)。運維僅需要在故障之后,對故障機做重啟或者下架替換等善后操作。有的時候,運維需要以冷備和自動切換的方式提供等級弱一個級別的可用性保障。
故障處理時,運維需要進程初步的故障定位。進程和服務(wù)的依賴管理可以幫助運維定位到問題。
以 mesosphere 和 hashicorp 等新一代創(chuàng)業(yè)公司為代表,開始提出數(shù)據(jù)中心操作系統(tǒng)(DCOS)的概念。實質(zhì)上是復(fù)制了 google/twitter 等大公司的標準化運維系統(tǒng)。
數(shù)據(jù)中心操作系統(tǒng)(DCOS) 提供方的愿景是提供一個通用的標準化運維系統(tǒng)高效率可靠安全地管理數(shù)據(jù)中心。直接與開發(fā)方對接,以 docker 容器等標準化的方式交付版本,以進程和服務(wù)描述的方式標準化搭建進程和服務(wù)。數(shù)據(jù)中心操作系統(tǒng)與開發(fā)方有一個非常清晰和低成本的接入接口,完全省去了運維這個角色寫膠水腳本的必要性,從而徹底顛覆這個崗位。
運維目前需要開發(fā)的操作和監(jiān)控類的 web 應(yīng)用不再需要定制開發(fā),數(shù)據(jù)中心操作系統(tǒng)(DCOS)提供可定制的操作和監(jiān)控模塊,只需要配置就可以接入,形成 web 應(yīng)用,不需要代碼開發(fā)。
當一家DCOS的產(chǎn)品公司可以低成本的與各種中小開發(fā)商對接之后,中小開發(fā)商可以大幅裁剪運維部門。而DCOS公司可以獲得可觀的經(jīng)濟收益,從而進一步地開發(fā)更完善的產(chǎn)品。DCOS實現(xiàn)的技術(shù)關(guān)鍵在于,docker的標準化版本交付技術(shù),smartstack為代表的路由托管技術(shù)使得不標準業(yè)務(wù)改造為標準業(yè)務(wù)的成本急劇降低。
puppet/chef 是讓運維寫腳本編程寫cookbook。而DCOS則可能直接讓寫腳本地這個膠水崗位消亡。DCOS顯然比 puppet/chef 等公司更具有顛覆性。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/7935.html
摘要:之前寫了一個版本,不夠簡練業(yè)務(wù)運維部門有四個方面的崗位價值,按照實現(xiàn)的難易程度排序效率質(zhì)量成本安全效率這是最容易實現(xiàn),也是能夠輸出最大的價值地方??偨Y(jié)越關(guān)鍵的業(yè)務(wù)停機的單位損失越大越可以體現(xiàn)運維的價值。 http://segmentfault.com/a/1190000002890102 之前寫了一個版本,不夠簡練 業(yè)務(wù)運維部門有四個方面的崗位價值,按照實現(xiàn)的難易程度排序 效率 ...
摘要:分享實錄云計算技術(shù)源于互聯(lián)網(wǎng)公司,現(xiàn)在云計算已經(jīng)是下一代企業(yè)級的發(fā)展趨勢。如何做云計算一直是云計算技術(shù)的領(lǐng)導(dǎo)者?;ヂ?lián)網(wǎng)公司的快速發(fā)展,已經(jīng)印證了云計算技術(shù)和云原生應(yīng)用相比傳統(tǒng)構(gòu)架的巨大優(yōu)勢。 今天小數(shù)又給大家?guī)硪黄韶洕M滿的分享——來自KVM社區(qū)線上群分享的實錄,分享嘉賓是數(shù)人云CEO王璞,題目是《云計算與 Cloud Native》。這是數(shù)人云在KVM社區(qū)群分享的第一彈,之后還有數(shù)...
摘要:此文已由作者劉超授權(quán)網(wǎng)易云社區(qū)發(fā)布。所以當我們評估大數(shù)據(jù)平臺牛不牛的時候,往往以單位時間內(nèi)跑的任務(wù)數(shù)目以及能夠處理的數(shù)據(jù)量來衡量。的問題調(diào)度在大數(shù)據(jù)領(lǐng)域是核心中的核心,在容器平臺中是重要的,但不是全部。 此文已由作者劉超授權(quán)網(wǎng)易云社區(qū)發(fā)布。 歡迎訪問網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運營經(jīng)驗 最近總在思考,為什么在支撐容器平臺和微服務(wù)的競爭中,Kubernetes 會取得最終的勝出,事實...
摘要:降低對外包服務(wù)團隊的依賴,提高業(yè)務(wù)的敏捷性研發(fā)部門實現(xiàn)測試環(huán)境自動創(chuàng)建配置和郵件通知,滿足持續(xù)集成和持續(xù)交付的要求,可自動并快速獲得基礎(chǔ)架構(gòu)應(yīng)用配置和代碼等各個關(guān)鍵環(huán)節(jié)的反饋。 2016年對Rancher Labs而言是太重要也太精彩的一年 Rancher 1.0,Rancher 1.1,Rancher 1.2三次重大的版本發(fā)布與更新Rancher的累積下載量已達1600萬 在中國海航...
摘要:過去軟件時代是怎么回事一單品時代過去做標準軟件產(chǎn)品,而且是單部門單部門單崗位或單部門多崗位應(yīng)用,所以過去做軟件時分工特別簡單總部研發(fā)軟件,然后構(gòu)建分銷網(wǎng)絡(luò),總部有專門的部門對分銷網(wǎng)絡(luò)進行培訓(xùn)營銷推廣管理與考核分銷網(wǎng)絡(luò)進行簡單的培訓(xùn)簡單的安裝(1)過去軟件時代是怎么回事 一、單品 IT時代 過去做標準軟件產(chǎn)品,而且是單部門(單部門單崗位或單部門多崗位)應(yīng)用,所以過去做軟件時分工特別...
閱讀 2535·2023-04-26 02:57
閱讀 1417·2023-04-25 21:40
閱讀 2188·2021-11-24 09:39
閱讀 3568·2021-08-30 09:49
閱讀 772·2019-08-30 15:54
閱讀 1177·2019-08-30 15:52
閱讀 2092·2019-08-30 15:44
閱讀 1282·2019-08-28 18:27