摘要:一場因阿里云故障引發(fā)的突發(fā)事件,導(dǎo)致他所在的互聯(lián)網(wǎng)金融公司幾近癱瘓。此次事故從點(diǎn)分至點(diǎn)分,時(shí)長約一小時(shí)。對此,阿里云方面不予置評。但阿里云相關(guān)負(fù)責(zé)人向新浪科技表示,賠償問題將按照相關(guān)服務(wù)保障條款進(jìn)行處理。
6月27日晚,北京國貿(mào)寫字樓2座燈火通明。林曉宇疾步往返于運(yùn)維部與研發(fā)部的走廊上,表情有些凝重。
一場因阿里云故障引發(fā)的突發(fā)事件,導(dǎo)致他所在的互聯(lián)網(wǎng)金融公司幾近癱瘓。在運(yùn)維部工作近一年,林曉宇首次受到公司各層級領(lǐng)導(dǎo)的“關(guān)注”。
“很多部門的Leader都打電話,問我怎么回事”,面對質(zhì)疑,林曉宇很是無奈。他回憶說,事發(fā)時(shí),業(yè)務(wù)數(shù)據(jù)無法讀取,交易短暫停滯,客服投訴量激增……運(yùn)維部和開發(fā)部啟動了自檢,因服務(wù)器無法登錄及文件存儲NAS不能服務(wù),問題也被很快確認(rèn):阿里云出了問題。
不能坐以待斃!
林曉宇所在的運(yùn)維部啟動了應(yīng)急預(yù)案:在線服務(wù)失效,轉(zhuǎn)為本地服務(wù)的Kubernetes容器集群,結(jié)果失效。采取手動更改,對象存儲OSS失效,SLS失效……
留給他的,只有等待。
在等待的過程中,林曉宇一直琢磨:宣傳時(shí)說“提供99.9%可靠性”,難道我們就是那0.1%?
驚魂一小時(shí)
根據(jù)阿里云官方描述,其在中國公共云市場占有率超過2至5名的總和,目前中國有40%的網(wǎng)站都在阿里云上運(yùn)營,一半獨(dú)角獸公司也在使用阿里云。以這個(gè)體量計(jì)算,即便是那0.1%的用戶,因?yàn)椴幻髟颉板礄C(jī)”所產(chǎn)生的焦慮感,也足以在社交網(wǎng)絡(luò)上掀起軒然大波。
當(dāng)天下午4點(diǎn)半開始,不斷有“阿里云宕機(jī)”的消息在微博和微信群中傳出。用戶們指出,故障原因集中表現(xiàn)在官方網(wǎng)站和控制臺無法訪問。而當(dāng)時(shí),阿里云內(nèi)部人員向新浪科技提供的第一份回應(yīng)是賬戶登陸異常,云服務(wù)器不受影響,此次故障并非宕機(jī)。
但官方回應(yīng)迅速發(fā)酵出第二輪不滿情緒。大量用戶在新浪科技發(fā)出的微博下面投訴其他功能也被波及——和林曉宇一樣,除了無法登陸之外,OpenSearch失效,ONS失效,NAS失效,OSS失效——簡單來說,除了登陸環(huán)節(jié)異常外,阿里云的多個(gè)產(chǎn)品在該時(shí)段均無法使用。
最終,阿里云在下午發(fā)布故障公告,確認(rèn)了除部分管控功能外,MQ、NAS、OSS等產(chǎn)品的部分功能出現(xiàn)訪問異常。此次事故從16點(diǎn)21分至17點(diǎn)30分,時(shí)長約一小時(shí)。
一位用戶點(diǎn)評道:中國互聯(lián)網(wǎng)半壁江山,驚魂整整一小時(shí)!
半壁江山還是0.1%?
郭寧顯然在另外半壁江山里。27日晚高峰,他走出望京的寫字樓,擠上地鐵,打開手機(jī)刷了眼新聞,才知道這天下午阿里云“掛”了。
“什么異常都沒有?!惫鶎幠壳霸谝患襂T公司負(fù)責(zé)開發(fā)團(tuán)隊(duì),產(chǎn)品均托管在阿里云上,涉及ESC和其他多個(gè)云服務(wù)。但他向新浪科技表示,自己的產(chǎn)品沒有受到任何影響?!熬W(wǎng)上那些問題一個(gè)都沒碰到?!?/p>
實(shí)際上,不只是郭寧,新浪科技接觸到的多名開發(fā)人員中,大多數(shù)都和郭寧一樣,在宕機(jī)期間內(nèi)毫無感覺。而唱吧、e代駕等使用阿里云的移動互聯(lián)網(wǎng)應(yīng)用,也幾乎沒有發(fā)出過抱怨的聲音。
不過,對于那些“驚喜”一小時(shí)的用戶來說,麻煩是切切實(shí)實(shí)的存在。據(jù)新浪科技不完全統(tǒng)計(jì),此次事故受影響的范圍十分廣泛,包括電商、互金、通訊語音及教育行業(yè)等。阿里云客服人員表示,“此次屬于大面積故障,基本上平臺大部分業(yè)務(wù)全掛了”,但具體影響范圍及用戶數(shù)量無法確定。
更麻煩的還在后面。
林曉宇說,雖然故障后來得到了排除,但部門需要進(jìn)行業(yè)務(wù)數(shù)據(jù)修復(fù),這無疑增加了工作量。
一家從事電商業(yè)務(wù)的員工告訴新浪科技,當(dāng)天正進(jìn)行用戶拉新活動,注冊短信接口全部失效,導(dǎo)致新增量在一兩小時(shí)內(nèi)為零,“老板不會關(guān)心服務(wù)器異常,他只會認(rèn)為是我們工作沒做到位”。
一個(gè)bug引發(fā)的慘案
次日凌晨,阿里云發(fā)布了故障原因說明:工程師團(tuán)隊(duì)在上線一個(gè)自動化運(yùn)維新功能中,執(zhí)行了一項(xiàng)變更驗(yàn)證操作。這一功能在測試環(huán)境驗(yàn)證中并未發(fā)生問題,上線到自動化運(yùn)維系統(tǒng)后,觸發(fā)了一個(gè)未知代碼bug,錯(cuò)誤代碼禁用了部分內(nèi)部IP,導(dǎo)致部分產(chǎn)品訪問鏈路不通。后續(xù)人工介入后,工程師團(tuán)隊(duì)快速定位問題進(jìn)行了恢復(fù)。
新浪科技曾向阿里云方面詢問具體的bug觸發(fā)原因,但對方拒絕回答。
各種段子一般的推測加入了下一輪傳播。其中流傳最廣的一個(gè)版本是:剛剛招了兩個(gè)實(shí)習(xí)生——誤刪了登陸服務(wù)。
“實(shí)習(xí)生誤刪登陸服務(wù)之說,應(yīng)該是不存在的。”IT領(lǐng)域自媒體“Linux高薪集訓(xùn)營“引用了原美團(tuán)點(diǎn)評運(yùn)維架構(gòu)師及馬哥教育聯(lián)合創(chuàng)始人張sir的解讀,“一方面,大型互聯(lián)網(wǎng)公司尤其是阿里云這樣的公司,對工程師權(quán)限有著極為嚴(yán)格的控制,因?yàn)榘⒗镌茢?shù)十萬臺服務(wù)器,支撐了全國各行各業(yè)千億以上規(guī)模的線上業(yè)務(wù),不可能讓實(shí)習(xí)生不熟悉的情況下,給予過高的管理權(quán)限。這是極其不專業(yè)的做法。”
張Sir從阿里巴巴內(nèi)部得知,這次故障影響了整個(gè)阿里巴巴集團(tuán),其中包括阿里云、螞蟻金服、天貓、飛豬、優(yōu)酷等事業(yè)群,其中阿里云的故障等級為S1。
在阿里巴巴的線上業(yè)務(wù)故障級別中,對S1的定義是:核心業(yè)務(wù)重要功能不可用,影響部分用戶,造成一定損失。
“故障的嚴(yán)重程度是非常高的,整個(gè)阿里集團(tuán)的核心業(yè)務(wù),以及依托阿里云的公司,很多都受到了影響?!睆圫ir表示。
不過,新浪科技發(fā)現(xiàn),天貓、支付寶、飛豬、優(yōu)酷等相關(guān)產(chǎn)品的訪問當(dāng)天并未受到影響。
至于具體原因,是一個(gè)核心應(yīng)用請求虛擬IP地址(Virtual IP Address VIP)列表的時(shí)候得到了空列表,導(dǎo)致幾千個(gè)VIP不可用,進(jìn)而影響到了整個(gè)集團(tuán)的業(yè)務(wù)。
“VIP是集群業(yè)務(wù)的入口,通過一個(gè)VIP的地址,可以實(shí)現(xiàn)一組業(yè)務(wù)的訪問。如果數(shù)千個(gè)VIP被禁用了,可能后端上萬臺的服務(wù)、應(yīng)用、數(shù)據(jù)庫等將直接無法訪問。”張Sir解釋。這也符合阿里云的官方解釋:“本次故障測試通過了,在生產(chǎn)環(huán)境觸發(fā)了一個(gè)未知bug。”
對此,阿里云方面不予置評。
“雞蛋不能放在一個(gè)籃子里”
實(shí)際上,云服務(wù)宕機(jī)波及大量互聯(lián)網(wǎng)應(yīng)用并不罕見。去年2月28日,云計(jì)算鼻祖亞馬遜AWS的云存儲團(tuán)隊(duì)在調(diào)試時(shí)錯(cuò)輸了一條指令,意外移除了大量服務(wù)器,導(dǎo)致進(jìn)出AWS東一服務(wù)區(qū)基礎(chǔ)設(shè)施的流量瞬間消失,停機(jī)長達(dá)3小時(shí)之久。
由于AWS在美國市場處于領(lǐng)先地位,包括Adobe、Airbnb、Github、納斯達(dá)克、Netflix、Slack、通用電氣、Quora等知名科技公司均被殃及。根據(jù)外媒估算,此次宕機(jī)造成了較高數(shù)千萬美元的損失。
“雞蛋不能放在同一個(gè)籃子里,就是這個(gè)道理?!?中國平安運(yùn)維部負(fù)責(zé)人在接受新浪科技采訪時(shí)指出,云服務(wù)是把“雙刃劍”,一方面,的確為眾多企業(yè)、尤其是中小企業(yè)帶來了便利,但在發(fā)生問題時(shí),給企業(yè)帶來的影響和損失也是巨大的。
該負(fù)責(zé)人稱,因行業(yè)不同,影響及損失有所區(qū)分。例如電商企業(yè),一旦發(fā)生云計(jì)算事故,直接影響到銷售額,同時(shí)供應(yīng)商的利益可能會受到牽連,還有潛在的企業(yè)誠信等問題。
從用戶層面看,因?yàn)楣收蠒?dǎo)致即時(shí)信息無法獲取,降低體驗(yàn)感。而對于那些以網(wǎng)絡(luò)進(jìn)行交易的用戶來說,損失將更大。
同樣是去年,納斯達(dá)克的報(bào)價(jià)傳輸系統(tǒng)發(fā)送的測試數(shù)據(jù)在7月份被第三方機(jī)構(gòu)不當(dāng)使用,出現(xiàn)重大錯(cuò)誤。谷歌、蘋果、亞馬遜一度出現(xiàn)不合理的股價(jià)暴跌,其中亞馬遜暴跌了87%。而在2013年,納斯達(dá)克就出現(xiàn)過類似錯(cuò)誤,并導(dǎo)致當(dāng)天停盤長達(dá)三小時(shí)。
“很多大企業(yè)都會分散選擇云服務(wù)商”,該負(fù)責(zé)人表示,一般情況下,小型企業(yè)受限于資金或人員等因素,可能會將所有服務(wù)放在同一品牌的云服務(wù)上。而多數(shù)中型企業(yè),會選擇多個(gè)廠商同時(shí)服務(wù)。但是,不同廠商間的產(chǎn)品屬性存在差異化,可能會導(dǎo)致數(shù)據(jù)無法同步等情況出現(xiàn)。
信譽(yù)如何用賠償解決?
幾年前,阿里云曾推出100倍故障賠償,即由于阿里云故障導(dǎo)致產(chǎn)品無法正常使用的情況,阿里云將提供100倍的故障時(shí)間賠償。
但阿里云相關(guān)負(fù)責(zé)人向新浪科技表示,賠償問題將按照相關(guān)服務(wù)保障條款進(jìn)行處理。
“必須要有詳細(xì)的清單”,客服人員表示,根據(jù)業(yè)務(wù)損失情況,法務(wù)部人員和業(yè)務(wù)專員會進(jìn)行核查,核查無誤會進(jìn)行賠償。
新浪科技查詢了阿里云的產(chǎn)品及服務(wù)協(xié)議規(guī)定,按照目前的規(guī)定,包月服務(wù)和資源包服務(wù)發(fā)生故障,賠償總額不會超過服務(wù)器內(nèi)故障涉及服務(wù)費(fèi)用的總額。如果時(shí)按量付費(fèi),賠償總額不會超過過去12個(gè)月,故障涉及服務(wù)的已繳納費(fèi)用總額。
但對于那些經(jīng)歷了宕機(jī)痛苦的阿里云用戶們來說,賠償與否已經(jīng)不是當(dāng)下最重要的問題了。曾經(jīng),阿里云因?yàn)椤翱孔V”被廣大網(wǎng)友呼吁站出來幫鐵總解決12306訂票難的問題,但此刻,林曉宇不由地開始懷疑阿里云是否真正可靠。
聲明:文章收集于網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系小編及時(shí)處理,謝謝!
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/3947.html
摘要:每秒實(shí)時(shí)處理超過萬項(xiàng)監(jiān)控指標(biāo),讓異常無所遁形。此外,對于復(fù)雜數(shù)據(jù)庫故障事后排查故障根源現(xiàn)場還原歷史事件追蹤也迫使我們建設(shè)一個(gè)覆蓋線上所有環(huán)境數(shù)據(jù)庫實(shí)例事件的監(jiān)控系統(tǒng),做到覆蓋阿里全球子公司所有機(jī)房。所有性能指標(biāo)做到秒級連續(xù)不間斷監(jiān)控。 摘要: 2017雙11再次創(chuàng)下了32.5萬筆/秒交易創(chuàng)建的紀(jì)錄,在這個(gè)數(shù)字后面,更是每秒多達(dá)幾千萬次的數(shù)據(jù)庫寫入,如何大規(guī)模進(jìn)行自動化操作、保證數(shù)據(jù)庫的...
摘要:事故發(fā)生后,阿里云及時(shí)做了回應(yīng)。璽哥認(rèn)為,正在使用阿里云的許多大企業(yè)甚至中小企業(yè),在考慮部署多云戰(zhàn)略時(shí),或?qū)Ⅱv訊云列入優(yōu)先考慮名單。3月3日凌晨,阿里云華北地區(qū)出現(xiàn)大規(guī)模宕機(jī)故障,多家互聯(lián)網(wǎng)公司都遭到了服務(wù)突然中斷的影響。事故發(fā)生后不久,阿里云官方凌晨回應(yīng)稱,華北2地域可用區(qū)C部分ECS服務(wù)器等實(shí)例出現(xiàn)IOHANG,經(jīng)緊急排查處理后逐步恢復(fù),此外將根據(jù)協(xié)議盡快賠償。宕機(jī),云服務(wù)商無法避免的事...
摘要:月日晚間消息,由于開源軟件進(jìn)行更新以修補(bǔ)發(fā)現(xiàn)的安全漏洞,最近多家云計(jì)算服務(wù)面臨短暫停機(jī)。近日,開源軟件發(fā)出高危漏洞警告,稱由于存在部分漏洞,建議所有相關(guān)的服務(wù)器進(jìn)行重啟來修復(fù)這些漏洞。另一家云計(jì)算廠商也為服務(wù)器集群安排了重啟時(shí)間表。 3月11日晚間消息,由于開源軟件Xen進(jìn)行更新以修補(bǔ)發(fā)現(xiàn)的安全漏洞,最近多家云計(jì)算服務(wù)面臨短暫停機(jī)。近日,開源軟件Xen發(fā)出高危漏洞警告,稱由于Xen存在部分漏...
摘要:如果使用阿里云函數(shù)計(jì)算,您將高峰期每小時(shí)的訪問日志,或者低谷期每小時(shí)的訪問日志交給一個(gè)計(jì)算函數(shù)處理,并將處理結(jié)果存到中。下面結(jié)合阿里云的函數(shù)計(jì)算產(chǎn)品來講解各個(gè)應(yīng)用場景中架構(gòu)以及如何解決的場景中的痛點(diǎn)。 摘要: Serverless概念是近年來特別火的一個(gè)技術(shù)概念,基于這種架構(gòu)能構(gòu)建出很多應(yīng)用場景,適合各行各業(yè),只要對輕計(jì)算、高彈性、無狀態(tài)等場景有訴求的用戶都可以通過本文來普及一些基礎(chǔ)概...
閱讀 832·2021-11-22 11:59
閱讀 3247·2021-11-17 09:33
閱讀 2318·2021-09-29 09:34
閱讀 1948·2021-09-22 15:25
閱讀 1966·2019-08-30 15:55
閱讀 1327·2019-08-30 15:55
閱讀 539·2019-08-30 15:53
閱讀 3353·2019-08-29 13:55