摘要:阿里云基因數(shù)據(jù)服務(wù)不斷提升極致彈性的計(jì)算能力,和大規(guī)模并行處理能力,以及海量高速存儲(chǔ)來幫助基因公司快速自動(dòng)化處理每天幾十上百的下機(jī)數(shù)據(jù),并產(chǎn)通過標(biāo)準(zhǔn)產(chǎn)出高質(zhì)量的變異數(shù)據(jù)。
摘要:?一家大型基因測序功能公司每日會(huì)產(chǎn)生 10TB 到 100TB 的下機(jī)數(shù)據(jù),大數(shù)據(jù)生信分析平臺(tái)需要達(dá)到 PB 級別的數(shù)據(jù)處理能力。這背后是生物科技和計(jì)算機(jī)科技的雙向支撐:測序應(yīng)用從科研逐步走向臨床應(yīng)用,計(jì)算模式從離線向在線演進(jìn),交付效率越來越重要。
作者李鵬,原文首發(fā)于InfoQ,《容器混合云,Kubernetes 助力基因分析》
引言James Watson 和 Francis Crick 于 1953 年發(fā)現(xiàn)了 DNA 的雙螺旋結(jié)構(gòu),從此揭開了物種進(jìn)化和遺傳的神秘面紗,開啟了人類對數(shù)字化遺傳的認(rèn)知,但是人類基因奧秘卻是一點(diǎn)點(diǎn)被讀懂的。
1956 年,一則癌癥和染色體相關(guān)性的發(fā)現(xiàn)令整個(gè)癌癥研究界震動(dòng):慢性骨髓性白血?。–ML)患者的第 22 號(hào)染色體,比一般然明顯短很多。二十余年后,學(xué)者們發(fā)現(xiàn),9 號(hào)染色體的 Abl 基因,與 22 號(hào)染色體的 BCR 基因連到了一塊,交錯(cuò)易位產(chǎn)生了一條 BCR-Abl 融合基因。BCR-Abl 蛋白一直處于活躍狀態(tài)且不受控制,引發(fā)不受控的細(xì)胞分裂,從而導(dǎo)致癌癥。
也就是說,只要細(xì)胞表達(dá) BCR-Abl 蛋白,就有血癌風(fēng)險(xiǎn)。美國著手深入研究,并成功推出了治療慢性骨髓性白血病的新藥。這,就是格列衛(wèi),也是去年《我不是藥神》中被我們熟知的‘高價(jià)藥’。
在格列衛(wèi)誕生前,只有 30% 的慢性骨髓性白血病患者能在確診后活過 5 年。格列衛(wèi)將這一數(shù)字從 30% 提高到了 89%,且在 5 年后,依舊有 98% 的患者取得了血液學(xué)上的完全緩解。為此,它也被列入了世界衛(wèi)生組織的基本藥物標(biāo)準(zhǔn)清單,被認(rèn)為是醫(yī)療系統(tǒng)中“最為有效、最為安全,滿足最重大需求”的基本藥物之一。
容器混合云如何應(yīng)對基因測序的 IT 挑戰(zhàn)基因測序在血液腫瘤領(lǐng)域應(yīng)用的越來越廣泛。根據(jù)病人的診斷結(jié)果, 血液腫瘤??漆t(yī)生會(huì)選擇相應(yīng)的檢查,比如 PCR 結(jié)合實(shí)時(shí)熒光探針技術(shù), 來檢測測 BCR-Abl 融合基因, 以診斷慢性骨髓性白血病, 也可以通過二代測序方式,SEGF(Single-end Gene Fusion)能夠通過單端 NGS 測序數(shù)據(jù)檢測復(fù)雜的基因融合類型。
在另一面,無創(chuàng)產(chǎn)檢唐氏/愛德華式篩查,近年來以高準(zhǔn)確率和對胎兒的低風(fēng)險(xiǎn),越來越受到國內(nèi)年輕產(chǎn)婦的歡迎。基因公司每年都完成幾十萬例的 NIPT 檢查,每一例的 NIPT 涉及到數(shù)百 MB+ 的數(shù)據(jù)處理,存儲(chǔ)和報(bào)告生成。一家大型基因測序功能公司每日會(huì)產(chǎn)生 10TB 到 100TB 的下機(jī)數(shù)據(jù),大數(shù)據(jù)生信分析平臺(tái)需要達(dá)到 PB 級別的數(shù)據(jù)處理能力。這背后是生物科技和計(jì)算機(jī)科技的雙向支撐:測序應(yīng)用從科研逐步走向臨床應(yīng)用,計(jì)算模式從離線向在線演進(jìn),交付效率越來越重要。
基因計(jì)算面臨以下幾方面挑戰(zhàn):
1.數(shù)據(jù)存儲(chǔ):數(shù)據(jù)增長快,存儲(chǔ)費(fèi)用高,管理困難;長期保存數(shù)據(jù)可靠性難以保障;需要尋求低成本大數(shù)據(jù)量的數(shù)據(jù)壓縮方式;元數(shù)據(jù)管理混亂,數(shù)據(jù)清理困難。
2.分發(fā)共享:海量數(shù)據(jù)需要快速、安全的分發(fā)到國內(nèi)多地及海外;傳統(tǒng)硬盤寄送方式周期長,可靠性低;多地中心數(shù)據(jù)需要共享訪問。
3.計(jì)算分析:批量樣本處理時(shí)間長,資源需求峰谷明顯,難以規(guī)劃;大規(guī)模樣本的數(shù)據(jù)挖掘需要海量計(jì)算資源,本地集群難以滿足;計(jì)算工作1. 3. 流流程遷移困難、線上線下調(diào)度困難、跨地域管理困難;線下彈性能力差,按需計(jì)算需求。
4.安全合規(guī):基因數(shù)據(jù)安全隱私要求極高;自建數(shù)據(jù)中心安全防護(hù)能力不足;數(shù)據(jù)合約(區(qū)塊鏈);RAM 子賬號(hào)支持。
而這樣看來一套完備架構(gòu)方案則是必不可少的。與傳統(tǒng)高性能計(jì)算相比,按需切分任務(wù)的需求,自動(dòng)從云中申請資源,自動(dòng)伸縮能力達(dá)到最小化資源持有成本,90% 以上的資源使用率,用完后自動(dòng)返還計(jì)算資源。最大化資源的使用效率,最低單樣本的處理成本,最快速的完成大批量樣本的處理。隨著基因測序業(yè)務(wù)增長,自動(dòng)完成線下資源使用,和線上資源擴(kuò)容。高速內(nèi)網(wǎng)帶寬,和高吞吐的存儲(chǔ),和幾乎無限的存儲(chǔ)空間。
基因計(jì)算不同于常規(guī)的計(jì)算,對海量數(shù)據(jù)計(jì)算和存儲(chǔ)能力都提出了很高的要求。主要通過容器計(jì)算的自動(dòng)伸縮特性和阿里云 ECS 的自動(dòng)伸縮能力的打通,可以大規(guī)模彈性調(diào)度云上的計(jì)算資源。通過對基因數(shù)據(jù)的合理切分,實(shí)現(xiàn)大規(guī)模的并行計(jì)算同時(shí)處理 TB 級別的樣本數(shù)據(jù)。通過按需獲取的計(jì)算能力,以及高吞吐的對象存儲(chǔ)的使用,大幅降低了計(jì)算資源持有的成本和單個(gè)樣本的處理成本。
整體技術(shù)架構(gòu)是云原生容器混合云,云上云下資源一體,跨地域集群統(tǒng)一管理。作為主要 Player,容器技術(shù)在數(shù)據(jù)分拆,數(shù)據(jù)質(zhì)量控制,Call 變異提供了標(biāo)準(zhǔn)化流程化、加速、彈性、鑒權(quán)、觀測、度量等能力,在另外一方面,高價(jià)值挖掘需要借助容器化的機(jī)器學(xué)習(xí)平臺(tái)和并行框架對基因、蛋白質(zhì)、醫(yī)療數(shù)據(jù)完成大規(guī)模線性代數(shù)計(jì)算來建立模型,從而使精準(zhǔn)醫(yī)療能力成為現(xiàn)實(shí)。
基因工程中的關(guān)鍵問題及解決方案數(shù)據(jù)遷移與傳輸
數(shù)據(jù)遷移、數(shù)據(jù)拆分階段百萬小文件的讀取對底層的文件系統(tǒng)壓力,通過避免不必要小文件的讀寫提高樣本的處理效率。 通過數(shù)據(jù)中心與阿里云的專線連接,實(shí)現(xiàn)高吞吐低延遲的數(shù)據(jù)上云以及與工作流結(jié)合的上云、校驗(yàn)、檢測方式。而最終需要達(dá)成的目標(biāo)是:在短時(shí)間內(nèi)完成數(shù)十 TB 級數(shù)據(jù)的加密搬遷,確保數(shù)據(jù)傳輸客戶端的高性能與安全性,實(shí)現(xiàn)并發(fā)傳輸、斷點(diǎn)續(xù)傳,且保有完善的訪問授權(quán)控制。
基因計(jì)算典型任務(wù):增強(qiáng)型工作流
基因計(jì)算的典型特征就是數(shù)據(jù)分批計(jì)算,需要按照特定步驟先后依次完成。將該問題抽象后,即需要申明式工作流定義 AGS(AlibabaCloud Genomics Service) workflow。
其工作流的特點(diǎn)是:多層次,有向無環(huán)圖??蒲写蠊ぷ髁?1000-5000+ 深度的 DAG,需要準(zhǔn)確的流程狀態(tài)監(jiān)控和高度的流程穩(wěn)定性。簡單流程從任意步驟重現(xiàn)啟動(dòng) ,失敗步驟可以自動(dòng)完成重試和繼續(xù),定時(shí)任務(wù),通知,日志,審計(jì),查詢,統(tǒng)一操作入口 CLI/UI 。
我們采用的方案是:
1.簡單 YAML 申明式定義,多層次,有向無環(huán)圖, 復(fù)雜依賴支持, 任務(wù)自動(dòng)分拆,自動(dòng)并行化;
2.云原生,與社區(qū) Argo 完全兼容的增強(qiáng)性 Workflow 定義;
3.實(shí)時(shí)資源統(tǒng)計(jì),監(jiān)控集成云監(jiān)控,云日志 SLS 集成, 審計(jì)集成, 定時(shí)任務(wù);
4.統(tǒng)一操作入口 ags-cli 與 Kubectl 集成;
5.阿里云存儲(chǔ)卷申明式支持,NAS,OSS,CloudDisk, 緩存加速支持。
云上云下資源的統(tǒng)一調(diào)度
通過跨越 IDC 和云上可用區(qū)的混合云 ACK 集群實(shí)現(xiàn)計(jì)算資源的統(tǒng)一調(diào)度和數(shù)據(jù)的云端匯聚。自動(dòng)化,流程化上云數(shù)據(jù),和后續(xù)的數(shù)據(jù)處理流程,形成 24 小時(shí)內(nèi)完成批次下機(jī)數(shù)據(jù)的本地, 上云,云端處理和報(bào)告生成。按需彈性提供計(jì)算節(jié)點(diǎn)或者無服務(wù)化計(jì)算資源,形成按需計(jì)算能力,處理突發(fā)分析任務(wù)。我所帶領(lǐng)的阿里云基因數(shù)據(jù)服務(wù)團(tuán)隊(duì)努力構(gòu)建更具彈性的容器化集群,分鐘級數(shù)百節(jié)點(diǎn)自動(dòng)伸縮能力和分鐘級數(shù)千輕量容器拉起的 Serverless 能力, 通過提高并行度來提高內(nèi)網(wǎng)帶寬的利用率,最終提高整體數(shù)據(jù)吞吐率,通過 NAS 客戶端和服務(wù)端的 TCP 優(yōu)化來提高 IO 讀寫速度,通過為 OSS 增加緩存層和分布式的緩存來實(shí)現(xiàn)對象存儲(chǔ)讀取加速等等。
還有很多問題,篇幅原因在此不一一展開:如何進(jìn)行基因數(shù)據(jù)管理、最優(yōu)化單位數(shù)據(jù)處理成本、采用批量計(jì)算的方式進(jìn)行對樣本分析、怎樣使得基因數(shù)據(jù)處理安全及跨組織安全分享等等。
生命科學(xué)和精準(zhǔn)醫(yī)學(xué)應(yīng)用,未來已來NovaSeq 測序儀帶來了低成本(100$/WGS)高產(chǎn)出(6TB 通量)的二代測序方案,大量 NovaSeq 的使用為基因測序公司每天產(chǎn)出的幾十 TB 數(shù)據(jù),這就要求大量的算力來分拆和發(fā)現(xiàn)變異,以及需要大量的存儲(chǔ)來保存原始數(shù)據(jù)和變異數(shù)據(jù)。阿里云基因數(shù)據(jù)服務(wù)不斷提升極致彈性的計(jì)算能力,和大規(guī)模并行處理能力,以及海量高速存儲(chǔ)來幫助基因公司快速自動(dòng)化處理每天幾十上百 TB 的下機(jī)數(shù)據(jù),并產(chǎn)通過 GATK 標(biāo)準(zhǔn)產(chǎn)出高質(zhì)量的變異數(shù)據(jù)。
以 PacBio 和 Nanopore 為代表的三代測序的出現(xiàn),超過 30K 到數(shù)百 K 的長讀,和 20GB 到 15TB 的大通量產(chǎn)出,長讀和數(shù)據(jù)量對數(shù)據(jù)比對,分拆,發(fā)現(xiàn)變異帶來了更大的算力需要和高 IO 吞吐的需求,對基因計(jì)算過程中優(yōu)化基因分析流程,拆分?jǐn)?shù)據(jù),按需調(diào)度大量計(jì)算資源,提供超高的 IO 吞吐帶來了更大的挑戰(zhàn)。
解碼未知,丈量生命??萍嫉拿恳恍〔剑紩?huì)成為人類前行的一大步。
本文作者:李鵬(Eric Li),阿里云資深架構(gòu)師,數(shù)據(jù)科學(xué)家,美國 FDA2018 精準(zhǔn)醫(yī)療大賽Top2 Winner ,金融/生物計(jì)算行業(yè)解決方案專家,專注于基于 Kubernetes 的容器產(chǎn)品開發(fā)和銀行,生信行業(yè)的生產(chǎn)落地。在加入阿里云之前,曾在 IBM 擔(dān)任 Watson 數(shù)據(jù)服務(wù)容器平臺(tái)首席架構(gòu)師,機(jī)器學(xué)習(xí)平臺(tái)架構(gòu)師,IBM 2015 Spark 全球大賽金獎(jiǎng)獲得者,帶領(lǐng)多個(gè)大型開發(fā)項(xiàng)目,涵蓋云計(jì)算,數(shù)據(jù)庫性能工具、分布式架構(gòu)、生物計(jì)算,大數(shù)據(jù)和機(jī)器學(xué)習(xí)。
閱讀原文
本文為云棲社區(qū)原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/11491.html
摘要:華為生科云解決方案,由工作流彈性計(jì)算云對象云存儲(chǔ)線下數(shù)據(jù)寄送服務(wù)四部分組成,為客戶提供端到端的解決方案,助力中國科研數(shù)據(jù)分析,演繹了生物與計(jì)算的完美結(jié)合。 隨著互聯(lián)網(wǎng)的普及和技術(shù)的發(fā)展,大數(shù)據(jù)和云計(jì)算已經(jīng)滲透在人們的生活的各個(gè)方面,在金融,零售,能源,交通等領(lǐng)域已經(jīng)得到廣泛應(yīng)用。而對于生物信息來說,生物的DNA、基因序列、生物芯片等無時(shí)無刻不產(chǎn)生新的數(shù)據(jù);比如說,DNA測序每年能夠產(chǎn)生大約1...
摘要:華為云華為云在云原生這場游戲中,最具競爭力的玩家之一。年,金山云在云原生領(lǐng)域推出了三款重磅產(chǎn)品星曜裸金屬服務(wù)器云服務(wù)器和云盤。在線上智博會(huì)上,浪潮云發(fā)布了經(jīng)過全新迭代升級的浪潮云,進(jìn)一步提升平臺(tái)云原生服務(wù)能力。面對數(shù)字時(shí)代復(fù)雜系統(tǒng)的不確定性,傳統(tǒng)的 IT 應(yīng)用架構(gòu)研發(fā)交付周期長、維護(hù)成本高、創(chuàng)新升級難,煙囪式架構(gòu),開放性差、組件復(fù)用度低,這些都成為了企業(yè)業(yè)務(wù)快速增長的瓶頸。而云原生以其敏捷、...
摘要:年底首次開啟阿里云容器服務(wù)公測年月正式商業(yè)化年月成為國內(nèi)唯一合作伙伴并推出專有云企業(yè)版,月實(shí)現(xiàn)產(chǎn)品國際化。阿里云容器服務(wù)為增加了阿里云云盤和等分布式存儲(chǔ)服務(wù)支持。阿里云容器服務(wù)為此進(jìn)一步提升了易用性,降低了部署管理和應(yīng)用開發(fā)門檻。 摘要: 作為容器編排系統(tǒng)的兩大流派, Kubernetes和Swarm的重要性不言而喻。融合了兩大高性能集成的阿里云容器服務(wù),不僅可以降低50%的基礎(chǔ)架構(gòu)成...
閱讀 3542·2021-09-24 09:48
閱讀 1044·2021-09-10 10:51
閱讀 3247·2019-08-30 13:03
閱讀 3279·2019-08-30 12:51
閱讀 1368·2019-08-30 11:22
閱讀 1021·2019-08-29 18:38
閱讀 2017·2019-08-29 16:41
閱讀 3091·2019-08-29 15:32