摘要:在數(shù)據(jù)中心,服務器管理員們并不需要面對這樣的挑戰(zhàn),但根據(jù)來自紅帽的在最近在節(jié)目中所說,我們已經(jīng)跨過了單個系統(tǒng)管理員管理過萬臺服務器的壁壘?;貞浾f,在九十年代,一個管理員只能管理四五臺微軟的服務器,一個的系統(tǒng)管理員也只能管理到臺的服務器。
什么是 10K 問題?
在 1999 年,Dan Kegel 向網(wǎng)絡服務器提出了一個駭人聽聞的難題:
是時候讓網(wǎng)絡服務器去同時應對 10000 個客戶端了,你覺得呢?畢竟網(wǎng)絡已經(jīng)變得很普及了。
這就是著名的 C10K 問題。 通過改善操作系統(tǒng)內(nèi)核和從像 Apache 那樣的線程服務器遷移到像 Nginx, Node 這樣的事件驅(qū)動服務器,工程師們解決了這個 C10K 問題。
但現(xiàn)在我們面臨著一個更大的挑戰(zhàn),如果同時應對一千萬個連接呢?要解決這個難題,需要些更變革的技術。
在數(shù)據(jù)中心,服務器管理員們并不需要面對這樣的挑戰(zhàn),但根據(jù)來自紅帽(Red Hat)的 Dave Neary 在最近在 FLOSS Weekly 節(jié)目中所說,我們已經(jīng)跨過了單個系統(tǒng)管理員管理過萬臺服務器的壁壘。
我們應該忽略這個里程碑事件嗎?絕對不是。這樣 200x-2000x 的增長是一個了不起的成就。Dave 回憶說,在九十年代,一個管理員只能管理四五臺微軟的服務器,一個 Linux 的系統(tǒng)管理員也只能管理 50 到 60 臺的服務器。
現(xiàn)在,公司們已經(jīng)開始用單個系統(tǒng)管理員管理超過 10,000 臺的服務器了,這個巨大的改變深刻影響了兩樣事情:1)IaaS,把數(shù)據(jù)中心改成彈性的可編程的資源,把操作從基礎設施中分離;2)開發(fā)操作革命,它強調(diào)工具、文化、自動化、度量、資源共享和基礎設施的編碼;
那么需要怎樣才可以令一個系統(tǒng)管理員就可以管理一千萬臺服務器呢?誰會知道?當然是谷歌公司了。
James Hamilon說,計算服務器的數(shù)量是困難的,微軟說,他們有一百萬臺服務器,然后,谷歌的服務器預計會達到一千萬臺,所以我們離單個系統(tǒng)管理員管理千萬臺服務器的日子還有些遠;
但是,當這種情況發(fā)生時,下面所列就是這些系統(tǒng)的基礎:
把數(shù)據(jù)中心當成多帶帶一臺計算機那樣對待
然后,在數(shù)據(jù)中心內(nèi)部,在計算機群上部署可復用的多維度多重作業(yè),以便提高機器利用率和節(jié)約金錢
但這僅僅是一個數(shù)據(jù)中心,這并不是把你從 十 帶到 百萬 臺服務器。對于千萬臺的服務器,你必須利用好這些數(shù)據(jù)中心,所以,你要建一個 Spanner 那樣的可以管理百萬臺機器、幾百個數(shù)據(jù)中心和數(shù)萬億個數(shù)據(jù)項的系統(tǒng);
當然,你還需要建造一個巨型網(wǎng)絡系統(tǒng),把這些數(shù)據(jù)中心連接在一起;
最后,當你真的面臨一個系統(tǒng)管理員管理千萬臺的服務器,你很可能需要付出巨大的精力去做深入的挖掘,使得之前的工作變得有意義。
在高層面來說,單個服務器同時應對千萬個連接和單個系統(tǒng)管理員同時管理千萬臺機器是一樣的:可擴展性就是一切。
但在低層面,他們是完全不一樣的。處理千萬個連接是關于扁平化處理數(shù)據(jù),減少層面,多帶帶自己的事情;而管理千萬臺服務器是關于把智能灌輸?shù)礁又腔鄣膶用?;這就很像人類身體內(nèi)部萬億個個體通過自己的小系統(tǒng)共同協(xié)作,然后被平衡化和去中心化的大腦所處理。
原文:We Finally Cracked The 10K Problem - This Time For Managing Servers With 2000x Servers Managed Per Sysadmin
翻譯:SegmentFault
文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/7890.html
摘要:問題任一文件句柄的不成功會阻塞住整個應用。主要解決的前兩個問題通過一個數(shù)組向內(nèi)核傳遞需要關注的事件消除文件句柄上限,同時使用不同字段分別標注關注事件和發(fā)生事件,來避免重復初始化。問題逐個排查所有文件句柄狀態(tài)效率不高。 C10K問題思維導圖 showImg(https://segmentfault.com/img/bVbkrKe?w=1818&h=1276); C10K問題出現(xiàn)前期 大家...
摘要:谷歌在萬臺機器的區(qū)間內(nèi),他們中位數(shù)集群尺寸大約在萬臺機器,也有一些更大的。谷歌稱,一個單獨的其專有的分配集群的首腦在一個谷歌對于集群的術語內(nèi)能管理成千上萬臺機器。 【文章簡介】本文討論了單個容器所無法解決的問題和局限性,并介紹了容器編排的必要性和復雜性及常用工具的比較,提到了諸如Kubernetes、Mesos等容器管理工具。 就像之前已被證實的那樣,要在一個機器上創(chuàng)建成千上萬個容器還...
摘要:一個完整的連接由四個部分組成源源端口目的目的端口這就是經(jīng)典的四元組。你沒看錯,服務器上只消耗這一個端口。但卻完全可以支撐下面這些連接連接客戶端服務器連接客戶端服務器連接非但如此,即使是只有一個客戶端,也可以向這個服務器建立多條連接的。 平時工作和學習中,大家都知道一臺計算機的端口號總共有65535個,但一臺計算機真的只能建...
閱讀 3839·2021-10-12 10:12
閱讀 1471·2021-10-11 10:58
閱讀 2307·2021-10-09 10:01
閱讀 2617·2021-09-24 09:48
閱讀 2713·2021-09-09 11:38
閱讀 3538·2019-08-30 15:44
閱讀 1733·2019-08-30 14:22
閱讀 530·2019-08-29 12:42