成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

虎牙直播運(yùn)維負(fù)責(zé)人張觀石 | 解密SRE的六種能力及虎牙運(yùn)維實(shí)踐

ixlei / 2781人閱讀

摘要:本文是根據(jù)虎牙直播運(yùn)維負(fù)責(zé)人張觀石月日在攜手魅族百度云主辦的第十三期魅族開放日虎牙直播平臺實(shí)踐演講中的分享內(nèi)容整理而成。英雄聯(lián)盟是全球最大的電子競技賽事,目前正在如火如荼進(jìn)行,從今天開始進(jìn)入了總決賽的淘汰賽階段了。

本文是根據(jù)虎牙直播運(yùn)維負(fù)責(zé)人張觀石10月20日在msup攜手魅族、Flyme、百度云主辦的第十三期魅族開放日《虎牙直播平臺SRE實(shí)踐》演講中的分享內(nèi)容整理而成。

張觀石,擁有10余年網(wǎng)站開發(fā)、架構(gòu)、運(yùn)維經(jīng)驗(yàn);目前關(guān)注互聯(lián)網(wǎng)服務(wù)可靠性系統(tǒng)工程、運(yùn)維平臺的規(guī)劃建設(shè)、網(wǎng)站高可用架構(gòu)等方面;在音視頻傳輸質(zhì)量評估、微服務(wù)運(yùn)維方面積累了豐富的經(jīng)驗(yàn)。

目錄

一、 直播平臺的架構(gòu)及運(yùn)維挑戰(zhàn)

(一) 音視頻傳輸流程及挑戰(zhàn)

(二) 一個(gè)直播間的流程

(三) 直播平臺的運(yùn)維挑戰(zhàn)

二、 我們的思考和運(yùn)維實(shí)踐

(一) Google SRE介紹

? SRE是什么

? Google SRE方法論

(二) 我們的思考:運(yùn)維的六種能力

(三) 我們的運(yùn)維實(shí)踐

運(yùn)維可靠性管理

感知能力

修復(fù)能力

反脆弱能力

保障能力

安全能力

虎牙直播介紹

虎牙直播是以游戲?yàn)橹饕獌?nèi)容,涵蓋娛樂、綜藝、教育、戶外、體育等多種內(nèi)容的直播平臺,2018年5月在紐交所上市。

虎牙算是整個(gè)直播行業(yè)比較重視技術(shù)的一家公司,大家可以對比下幾家平臺觀看體驗(yàn),我們應(yīng)該是最好的一家了。英雄聯(lián)盟S8 是全球最大的電子競技賽事,目前正在如火如荼進(jìn)行,從今天開始進(jìn)入了總決賽的淘汰賽階段了。這會正在進(jìn)行的是IG對KT隊(duì),IG是中國的隊(duì)伍,今年共有3只中國對進(jìn)入了8強(qiáng),是歷年最好的成績,比賽很精彩,如果不來今天的分享,我可能在家看比賽,或是去公司值班了。歡迎大家到虎牙直播平臺觀看直播,為LPL加油!(發(fā)布此稿時(shí),中國隊(duì)IG已經(jīng)獲得了總決賽冠軍,虎牙平臺觀眾數(shù)也突破了歷史新高,直播過程無較大故障發(fā)生)。

今天的分享正好會講到關(guān)于這次賽事的運(yùn)維保障的技術(shù)。

一般網(wǎng)站比如電商類網(wǎng)站用戶是賣家+買家, 賣家先編輯商品信息,發(fā)布后買家刷新后再看到,是異步的,賣家可以慢慢改,錯(cuò)了可以慢慢調(diào)。直播平臺上,一個(gè)主播開播出現(xiàn)在攝像頭面前,可能有成千上萬的人同時(shí)觀看,主播不能有任何小動作,不能離開,重新開播代價(jià)太大了,10分鐘不能播觀眾就跑了。要是互動不流暢,土豪也就不想看你了。主播更不可能停播配合我們運(yùn)維人員做一些技術(shù)上的調(diào)整。如此看來,直播平臺相對于傳統(tǒng)網(wǎng)站還是有區(qū)別的。所以,這對運(yùn)維的挑戰(zhàn)就更大。

直播平臺技術(shù)是比較復(fù)雜的,首先是音視頻處理本身有很多高深的技術(shù),其實(shí)是大規(guī)模的觀眾和主播,還要對實(shí)時(shí)性要求特別高。

今年英雄聯(lián)盟總決賽S8是從韓國現(xiàn)場傳送回國,傳輸路徑也比較復(fù)雜。

一、直播平臺的架構(gòu)及運(yùn)維挑戰(zhàn)

(一)音視頻傳輸流程及挑戰(zhàn)

音頻流程是指平臺從開播到觀看一系列的流程。

①開播主播多

同時(shí)開播的主播數(shù)量非常多。

②上行選擇多

圖中,中間藍(lán)色部分的線是可以支持上行的線路,每一個(gè)主播都可以到任何一條線路上,虎牙有自動調(diào)度,運(yùn)維人員也可以進(jìn)行調(diào)度,主播上行哪里。

③ 轉(zhuǎn)推路徑多

確定一條上行線路后,還要互相轉(zhuǎn)推到其他線路上,觀眾可以在任何一條線路看到主播的直播。

④觀眾線路多

觀眾有很大的選擇權(quán),比如選擇不同的清晰度、不同的線路,包括H5技術(shù)等,播放技術(shù)和觀眾選擇不一樣。

⑤轉(zhuǎn)碼檔位多

⑥實(shí)時(shí)要求高

今年,虎牙運(yùn)維研究團(tuán)隊(duì)又做了P2P技術(shù),架構(gòu)又比以前復(fù)雜了很多。

(二)一個(gè)直播間的流程

上圖是一個(gè)虎牙主播直播的流程。首先,主播可以選擇一個(gè)開播方式(進(jìn)程開播、桌面直播、攝像頭開播、手游投屏、手游桌面、OBS、導(dǎo)播系統(tǒng)、VR直播、第三方推流等)進(jìn)行直播,經(jīng)過4種推流方式(HUYA、UDP、 YY、 RTMP、CDN),直推到某條線路上,轉(zhuǎn)推多家CDN,從CDN邊緣到中心,然后再選擇轉(zhuǎn)碼率,最后分發(fā)到不同省、市的運(yùn)營商,之后就到觀眾的客戶端。

(三)直播平臺的運(yùn)維挑戰(zhàn)

因?yàn)橐粢曨l本身的復(fù)雜度,加上業(yè)務(wù)的實(shí)時(shí)性,對運(yùn)維造成很大的挑戰(zhàn)。傳統(tǒng)的運(yùn)維可以對開源組件做部署、配置、優(yōu)化、高可用部署等。而音視頻技術(shù)變化很快,自成一個(gè)體系,主播端和觀眾端的邏輯性強(qiáng),由于中間傳輸路線多,運(yùn)維人員很難參與其中,所以我們必須換一種工作方式。

google的SRE 給了我們很大的啟發(fā),我們在SRE的方法論指導(dǎo)下,比較深入地參與到了音視頻傳輸業(yè)務(wù)中,雖然我們不叫SRE,還是叫業(yè)務(wù)運(yùn)維,不過做法吸收了SRE的很多思路。今天要分享的也是這方面的內(nèi)容,希望對大家有些啟發(fā)。

我們的思考和運(yùn)維實(shí)踐

(一)Google SRE介紹

? SRE是什么

S是Site/Service/Software,運(yùn)維的對象,網(wǎng)站業(yè)務(wù)服務(wù)線上的服務(wù)

R是reliability,關(guān)注可靠性,質(zhì)量,理解為對外部最終用戶的質(zhì)量和價(jià)值

E是Engineer工程師、Engineering工程化。

運(yùn)維的本質(zhì)是人和機(jī)器參與的一項(xiàng)系統(tǒng)性工程,這種工程跟軟件工程不太一樣的是,我們是負(fù)責(zé)業(yè)務(wù)上線后穩(wěn)定運(yùn)營,可靠性、質(zhì)量、成本等。有人比喻業(yè)務(wù)研發(fā)和運(yùn)維的關(guān)系就像是:生孩子與養(yǎng)孩子,哪個(gè)更難哪個(gè)更容易呢?

? Google SRE方法論:

?關(guān)注研發(fā)工作,減少瑣事

?保障SLO&度量風(fēng)險(xiǎn)

?做好監(jiān)控及黃金指標(biāo)

?應(yīng)急事件處理

?變更管理

?需求預(yù)測和容量規(guī)劃

?資源部署

?效率與性能

(二)我們的思考:運(yùn)維的六種能力

常有人問我們運(yùn)維是做什么的,我們說是做質(zhì)量、效率、成本 ,具體怎么做,要怎么做呢,幾句話很難講清楚?!禨RE Google運(yùn)維解密》這本書強(qiáng)調(diào)實(shí)踐方法論,能落地,但不夠體系,可能是由不同的人寫不同的章節(jié)。我有機(jī)會順著可靠性這條路徑,找到了傳統(tǒng)行業(yè)的可靠性研究,發(fā)現(xiàn)了另外一片世界。大家都以為SRE是google提出來的,其實(shí)傳統(tǒng)行業(yè)的SRE已經(jīng)存在了幾十年了,已經(jīng)成為了一門學(xué)科。我個(gè)人研究之后,認(rèn)為這門學(xué)科講得更體系更完整,于是希望能套到互聯(lián)網(wǎng)的服務(wù)中來。我參照照傳統(tǒng)行業(yè)一些可靠性的理論、對框架做了一些遷移,將自己的思考轉(zhuǎn)化成了一個(gè)運(yùn)維的思考框架,叫做運(yùn)維的六種能力,將其分為以下6點(diǎn):

SER眼中的可靠性:規(guī)定條件規(guī)定時(shí)間內(nèi)完成規(guī)定功能

可靠性的兩個(gè)故事:

二戰(zhàn)時(shí)某次美軍近半飛機(jī)無法起飛,發(fā)現(xiàn)是某些電子管不可靠引起的。朝鮮戰(zhàn)爭中美軍電子設(shè)備不可靠,維修成本比制造成本高了幾倍。從而誕生了可靠性這門學(xué)科。

①可靠性管理

首先要分析目標(biāo)業(yè)務(wù)的可靠性模型,然后畫出可靠性邏輯框圖,評估每個(gè)環(huán)節(jié)和總體的可靠性性,進(jìn)行度量和評價(jià),可以是定性的,也可以是定量的。

②感知能力

在業(yè)務(wù)上線、建立連接之后,學(xué)會如何感知其狀態(tài)、變化及問題。

③修復(fù)能力

當(dāng)可靠性在設(shè)計(jì)階段不夠完善時(shí),修復(fù)能力可以幫助我們在用戶沒有感知的狀態(tài)下修復(fù)故障。

④反脆弱能力

業(yè)務(wù)運(yùn)行在一定內(nèi)部或外部環(huán)境里,尋找脆弱點(diǎn)和風(fēng)險(xiǎn)點(diǎn),然后對它的脆弱點(diǎn)進(jìn)行分析,并設(shè)計(jì)出反脆弱的能力,最終推動業(yè)務(wù)研發(fā)修改技術(shù)架構(gòu)。

⑤保障能力

很多業(yè)務(wù)需要具備保障能力,建立保障性的設(shè)計(jì),實(shí)現(xiàn)快速交付資源和快速能力到位。

⑥安全能力

如何保證我們業(yè)務(wù)安全、數(shù)據(jù)安全。

(三)我們的運(yùn)維實(shí)踐

我們主要關(guān)注所負(fù)責(zé)業(yè)務(wù)的核心服務(wù)的核心指標(biāo),我們將每一條端到端鏈路都看做是一個(gè)服務(wù),那么服務(wù)指標(biāo)可以是成功率、延遲或其他,將指標(biāo)能達(dá)到某個(gè)程度作為目標(biāo);研發(fā)和運(yùn)維團(tuán)隊(duì)會對這個(gè)服務(wù)畫出部署構(gòu)架圖、可靠性邏輯框圖(見下圖);建立業(yè)務(wù)的可靠性模型,同時(shí)還會做一些FMECA;分析失敗模式及其帶來的影響,以及討論設(shè)計(jì)解決方案;對一些關(guān)鍵的服務(wù),要把故障樹畫出來,度量風(fēng)險(xiǎn),選擇優(yōu)先風(fēng)險(xiǎn),推動解決;可靠性是管理出來,是運(yùn)維出來的,但首先是設(shè)計(jì)出來的,可靠性設(shè)計(jì)的方法包括避錯(cuò)、改錯(cuò)、容錯(cuò)等。

下圖是我們負(fù)責(zé)運(yùn)維的同學(xué)畫的P2P技術(shù)架構(gòu)流程圖。

下圖是主播上行經(jīng)過的環(huán)節(jié),這對運(yùn)維人員做監(jiān)控時(shí)有指導(dǎo)意義。邏輯框圖越畫越細(xì),每個(gè)點(diǎn)都會分析、統(tǒng)計(jì)它的可靠性。

1.可靠性管理的要點(diǎn)

①如何識別風(fēng)險(xiǎn)

可以從幾個(gè)方面判斷:

復(fù)雜度;技術(shù)成熟度;重要程度;環(huán)境嚴(yán)酷程度

②如何驗(yàn)證可靠性水平

開發(fā)階段前性能測試;上線壓測;容量模型;改進(jìn)測試;模擬故障測試等

③實(shí)踐

建立可靠性指標(biāo)大盤;黃金指標(biāo)&SLO;主播上行APM;全鏈路的可靠性;多維度的析評估體系;日報(bào),月報(bào),實(shí)時(shí)可靠性等。

2.感知能力

什么是感知力,包括但不限于監(jiān)控的覆蓋度,告警的實(shí)時(shí)性,準(zhǔn)確性,觸達(dá)率,問題定位能力,趨勢預(yù)測能力 。

①監(jiān)控、狀態(tài)感知能力

以監(jiān)控?cái)?shù)據(jù)作為基礎(chǔ),提高人工感知能力和機(jī)器感知能力,監(jiān)控是感知的基礎(chǔ),監(jiān)控指標(biāo)多了,不能說就有了感知力,這遠(yuǎn)遠(yuǎn)不夠。

②故障感知能力

幫助運(yùn)維人員感知業(yè)務(wù)的狀態(tài)、變化和其他問題

③AIOps大多是加強(qiáng)運(yùn)維感知能力

大數(shù)據(jù);智能告警

自動化測試、壓力測試

撥測、APM

日志trace可閱讀,可分析

3.修復(fù)能力

SRE是與故障做斗爭的系統(tǒng)工程。程序?qū)懙迷俸?,也很難達(dá)到完全不出故障。

衡量修復(fù)能力-MTTR:

對于大部分的故障,都應(yīng)該知道它的故障模式,根據(jù)故障模式就可以制定故障預(yù)案(規(guī)定條件規(guī)定時(shí)間規(guī)定人進(jìn)行修復(fù)),根據(jù)預(yù)案做出一些修復(fù)工具,即人工修復(fù)或智能自愈。當(dāng)發(fā)生一些考慮不到的情況出現(xiàn)時(shí),需要維修和技術(shù)保養(yǎng),進(jìn)行擴(kuò)容或者優(yōu)化。根據(jù)平均修復(fù)時(shí)間和最大修復(fù)時(shí)間進(jìn)行修復(fù)評價(jià)。

虎牙的一些實(shí)踐:

主播上行切換:從早期主播重新開播修復(fù)上行問題,到后臺手工切換,到主播端自動切換。修復(fù)時(shí)間(MTTR)從半個(gè)小時(shí)縮短到5分鐘,到秒級。

觀眾調(diào)度系統(tǒng):基于主播端,觀眾端調(diào)度,小運(yùn)營商調(diào)度、無縫切換,按協(xié)議調(diào)度等,機(jī)房一鍵上下線。

故障修復(fù)更高一級是自愈,這也是故障修復(fù)能力轉(zhuǎn)化為軟件架構(gòu)設(shè)計(jì)的高度。

4.反脆弱能力

反脆弱的設(shè)計(jì):

保證服務(wù)在脆弱條件下的保持容忍范圍內(nèi)的健壯性。

軟件總是在不同環(huán)境運(yùn)行、不同條件下運(yùn)行,這個(gè)條件就是可靠性中“規(guī)定的條件”。環(huán)境總是有很多脆弱點(diǎn),要做脆弱性分析、反脆弱設(shè)計(jì),最后評估評審?;ヂ?lián)網(wǎng)常見的脆弱性因素,有機(jī)房、運(yùn)營商、網(wǎng)絡(luò)、單機(jī)故障,業(yè)務(wù)突發(fā)事件負(fù)載高、流量大,也可能微服務(wù)請求超時(shí)。健壯性設(shè)計(jì),容災(zāi)性設(shè)計(jì)、高可用的設(shè)計(jì)、資源冗余等。這也是google SRE種說的擁抱風(fēng)險(xiǎn)、度量風(fēng)險(xiǎn)、評估風(fēng)險(xiǎn)容忍能力。

S8源流的反脆弱性設(shè)計(jì)

5.保障能力

軟件架構(gòu)設(shè)計(jì)特性和計(jì)劃的保障資源,能快速滿足使用要求的能力。

可靠性保障的設(shè)計(jì),要做到無狀態(tài),可切換,可調(diào)度,可重試等,比如說我們怎么樣實(shí)現(xiàn)替換一臺故障機(jī)器,且要求在10分鐘內(nèi)提供業(yè)務(wù)服務(wù)。

做可靠性保障要做一個(gè)閉環(huán),分析目標(biāo)、風(fēng)險(xiǎn)、脆弱性;設(shè)計(jì)SLO-感知還有保障、修復(fù)、演練。感知SLI的變化以及相關(guān)的子SLI的變化,盡快修復(fù)SLI退化情況,在設(shè)計(jì)時(shí)盡量考慮到各種脆弱條件,做出反脆弱的保障方案。

我們的一些實(shí)踐:

?帶寬資源保障:

能分鐘級實(shí)現(xiàn)帶寬調(diào)度,能1分鐘內(nèi)實(shí)現(xiàn)切流

?服務(wù)器保障:

3分鐘能拿到多個(gè)機(jī)房服務(wù)器

3分鐘能把核心服務(wù)部署起來

保障能力需要架構(gòu)設(shè)計(jì)、接口的設(shè)計(jì)

我們在直播間的做了一些特殊設(shè)計(jì)

保障能力是多方面能力的綜合體現(xiàn):

?考驗(yàn)的是自動化的程度,要有支撐系統(tǒng)的保障,要有自動化工具的保障

?要做人力和人員的規(guī)劃,考驗(yàn)故障時(shí)人員到位時(shí)間

?要做硬件、軟件資源的供應(yīng)保障

?是對軟件架構(gòu)的要求,是否支持平滑擴(kuò)容

?要有演練,確保能執(zhí)行

6.安全能力

安全是最基本的能力,也是最大的風(fēng)險(xiǎn)之一。

數(shù)據(jù)安全:層出不窮的數(shù)據(jù)泄露事件,用戶信息涉密事件。

業(yè)務(wù)安全:優(yōu)惠券被刷,支付漏洞,主播言行、登錄風(fēng)控等。

用戶安全:比如滴滴的安全事件。

以上內(nèi)容來自張觀石老師的分享。

聲明:本文是由msup原創(chuàng),轉(zhuǎn)載請聯(lián)系 [email protected]

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/8090.html

相關(guān)文章

  • 虎牙直播運(yùn)維負(fù)責(zé)人觀石 | 解密SRE六種能力虎牙運(yùn)維實(shí)踐

    摘要:虎牙直播運(yùn)維負(fù)責(zé)人張觀石張觀石,擁有余年網(wǎng)站開發(fā)架構(gòu)運(yùn)維經(jīng)驗(yàn)?zāi)壳瓣P(guān)注互聯(lián)網(wǎng)服務(wù)可靠性系統(tǒng)工程運(yùn)維平臺的規(guī)劃建設(shè)網(wǎng)站高可用架構(gòu)等方面在音視頻傳輸質(zhì)量評估微服務(wù)運(yùn)維方面積累了豐富的經(jīng)驗(yàn)。 showImg(https://segmentfault.com/img/bVbjqGq); 虎牙直播運(yùn)維負(fù)責(zé)人張觀石 張觀石,擁有10余年網(wǎng)站開發(fā)、架構(gòu)、運(yùn)維經(jīng)驗(yàn);目前關(guān)注互聯(lián)網(wǎng)服務(wù)可靠性系統(tǒng)工程、運(yùn)維...

    Jonathan Shieber 評論0 收藏0
  • 虎牙數(shù)萬主播同時(shí)在線直播的秘密,CDN推流日志上行實(shí)時(shí)監(jiān)控

    摘要:張波目前主要負(fù)責(zé)虎牙直播運(yùn)維體系的建設(shè),針對和后臺類程序的發(fā)布監(jiān)控運(yùn)維自動化相關(guān)的運(yùn)維系統(tǒng)進(jìn)行設(shè)計(jì)和開發(fā)。 6 月 10 日,又拍云 Open Talk | 2018 音視頻技術(shù)沙龍·深圳站 順利落幕,來自虎牙的直播運(yùn)維研發(fā)架構(gòu)師張波在沙龍上做了《基于CDN推流日志的主播上行實(shí)時(shí)監(jiān)控及其自動化解密》的分享?;⒀乐辈ナ侵袊I(lǐng)先的互動直播平臺,作為游戲直播第一股,是音視頻技術(shù)的典型應(yīng)用企業(yè)...

    番茄西紅柿 評論0 收藏0
  • 虎牙數(shù)萬主播同時(shí)在線直播的秘密,CDN推流日志上行實(shí)時(shí)監(jiān)控

    摘要:張波目前主要負(fù)責(zé)虎牙直播運(yùn)維體系的建設(shè),針對和后臺類程序的發(fā)布監(jiān)控運(yùn)維自動化相關(guān)的運(yùn)維系統(tǒng)進(jìn)行設(shè)計(jì)和開發(fā)。 6 月 10 日,又拍云 Open Talk | 2018 音視頻技術(shù)沙龍·深圳站 順利落幕,來自虎牙的直播運(yùn)維研發(fā)架構(gòu)師張波在沙龍上做了《基于CDN推流日志的主播上行實(shí)時(shí)監(jiān)控及其自動化解密》的分享。虎牙直播是中國領(lǐng)先的互動直播平臺,作為游戲直播第一股,是音視頻技術(shù)的典型應(yīng)用企業(yè)...

    Godtoy 評論0 收藏0
  • 當(dāng)S8遇上邊緣計(jì)算:談阿里云ENS對直播業(yè)務(wù)場景的支撐

    摘要:阿里云推出的邊緣節(jié)點(diǎn)服務(wù)這個(gè)云產(chǎn)品,就是針對前面提到的目標(biāo)場景,來應(yīng)對客戶自建邊緣設(shè)施遇到的痛點(diǎn)和挑戰(zhàn)的。針對賽事直播業(yè)務(wù)場景的優(yōu)化阿里云團(tuán)隊(duì)針對常規(guī)活動賽事電競直播這一業(yè)務(wù)場景,也做了很多技術(shù)優(yōu)化。 近日,英雄聯(lián)盟S8全球總決賽落下帷幕,中國戰(zhàn)隊(duì)IG零封FNC奪得冠軍。這場比賽引起了國內(nèi)網(wǎng)友的超高關(guān)注度,也給直播平臺帶來了不小的技術(shù)挑戰(zhàn)?;⒀乐辈テ脚_結(jié)合阿里云邊緣節(jié)點(diǎn)技術(shù)方案,保障了...

    lily_wang 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<