隨著阿里大數(shù)據(jù)產(chǎn)品業(yè)務(wù)的增長,服務(wù)器數(shù)量不斷增多,IT運(yùn)維壓力也成比例增大。各種軟、硬件故障而造成的業(yè)務(wù)中斷,成為穩(wěn)定性影響的重要因素之一。本文詳細(xì)解讀阿里如何實(shí)現(xiàn)硬件故障預(yù)測(cè)、服務(wù)器自動(dòng)下線、服務(wù)自...
...擬化計(jì)算在不同應(yīng)用場(chǎng)景下的數(shù)據(jù)存儲(chǔ)需求。本地磁盤:服務(wù)器上的本地磁盤,通常采用 RAID 條帶化保證磁盤數(shù)據(jù)安全。性能高,擴(kuò)展性差,虛擬化環(huán)境下遷移較為困難,適用于高性能且基本不考慮數(shù)據(jù)安全業(yè)務(wù)場(chǎng)景。商業(yè)化存...
...慮在這些機(jī)房實(shí)施相關(guān)的自動(dòng)化恢復(fù)方案。比如義橋機(jī)房服務(wù)器已經(jīng)全部配備遠(yuǎn)程管理卡,并且基于ceph存儲(chǔ)作為系統(tǒng)盤+云硬盤的云主機(jī)也已經(jīng)上線到該機(jī)房,這是我們實(shí)施該方案的基礎(chǔ)。基于ceph存儲(chǔ)后端的云主機(jī)在異常恢復(fù)過...
...度任務(wù)的控制和管理,用于決策虛擬機(jī)運(yùn)行在哪一臺(tái)物理服務(wù)器上,同時(shí)管理虛擬機(jī)狀態(tài)及遷移計(jì)劃,保證虛擬機(jī)可用性和可靠性。智能調(diào)度系統(tǒng)實(shí)時(shí)監(jiān)測(cè)集群所有計(jì)算節(jié)點(diǎn)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等負(fù)載信息,作為虛擬機(jī)調(diào)度和管理...
...?! 〉?步:如果不能開機(jī),接著使用最小系統(tǒng)法,將硬盤、軟驅(qū)、光驅(qū)的數(shù)據(jù)線拔掉,然后檢查電腦是否能開機(jī),如果電腦顯示器出現(xiàn)開機(jī)畫面,則說明問題在這幾個(gè)設(shè)備中。接著再逐一把以上幾個(gè)設(shè)備接入電腦,當(dāng)接入某...
...包括應(yīng)用是否能以足夠好的性能處理請(qǐng)求。對(duì)于一個(gè)大型服務(wù)器而言,重啟 MySQL 后,可能需要幾個(gè)小時(shí)才能預(yù)熱數(shù)據(jù)以保證請(qǐng)求的響應(yīng)時(shí)間。這里的幾個(gè)小時(shí)也應(yīng)該包括在宕機(jī)時(shí)間內(nèi)。 到此為止,我們應(yīng)該有個(gè)大致的印象,可...
...包括應(yīng)用是否能以足夠好的性能處理請(qǐng)求。對(duì)于一個(gè)大型服務(wù)器而言,重啟 MySQL 后,可能需要幾個(gè)小時(shí)才能預(yù)熱數(shù)據(jù)以保證請(qǐng)求的響應(yīng)時(shí)間。這里的幾個(gè)小時(shí)也應(yīng)該包括在宕機(jī)時(shí)間內(nèi)。 到此為止,我們應(yīng)該有個(gè)大致的印象,可...
...據(jù)磁盤。存儲(chǔ)系統(tǒng)兼容并支持多種底層存儲(chǔ)硬件,如通用服務(wù)器(計(jì)算存儲(chǔ)超融合或獨(dú)立通用存儲(chǔ)服務(wù)器)和商業(yè)存儲(chǔ),并將底層存儲(chǔ)硬件分別抽像不同類型集群的存儲(chǔ)資源池,由分布式存儲(chǔ)系統(tǒng)統(tǒng)一調(diào)度和管理。在實(shí)際應(yīng)用場(chǎng)...
遇到服務(wù)器故障,問題出現(xiàn)的原因很少可以一下就想到。我們基本上都會(huì)從以下步驟入手,這些也是絕大多數(shù)運(yùn)維工程師在定位故障時(shí)前幾分鐘的主要排查點(diǎn):一、盡可能搞清楚問題的前因后果不要一下子就扎到服務(wù)器前面,...
...點(diǎn)心得供各位奮斗在一線的運(yùn)維人員提供一點(diǎn)幫助 遇到服務(wù)器故障,問題出現(xiàn)的原因很少可以一下就想到。我們基本上都會(huì)從以下步驟入手: 一、盡可能搞清楚問題的前因后果 不要一下子就扎到服務(wù)器前面,你需要先搞明白...
...點(diǎn)心得供各位奮斗在一線的運(yùn)維人員提供一點(diǎn)幫助 遇到服務(wù)器故障,問題出現(xiàn)的原因很少可以一下就想到。我們基本上都會(huì)從以下步驟入手: 一、盡可能搞清楚問題的前因后果 不要一下子就扎到服務(wù)器前面,你需要先搞明白...
...月份的時(shí)候,某電商公司一個(gè)做DBA的朋友來咨詢我,本地硬盤已經(jīng)刪除了的文件有沒有辦法恢復(fù)?我便產(chǎn)生了一些疑問,為什么數(shù)據(jù)庫運(yùn)維要管這些呢?后來詳細(xì)聊了下事情的原委,才知道他們公司由于設(shè)置了30天的數(shù)據(jù)庫日志...
ChatGPT和Sora等AI大模型應(yīng)用,將AI大模型和算力需求的熱度不斷帶上新的臺(tái)階。哪里可以獲得...
大模型的訓(xùn)練用4090是不合適的,但推理(inference/serving)用4090不能說合適,...
圖示為GPU性能排行榜,我們可以看到所有GPU的原始相關(guān)性能圖表。同時(shí)根據(jù)訓(xùn)練、推理能力由高到低做了...