摘要:輕量級云服務器如何使用實例的用法與普通彈性計算實例一樣便捷,用戶可以使用控制臺或者方式配置和購買服務。
阿里云發(fā)布了國內首個公共云上的輕量級GPU異構計算產品——VGN5i實例,該實例打破了傳統直通模式的局限,可以提供比單顆物理GPU更細粒度的服務,從而讓客戶以更低成本、更高彈性開展業(yè)務。適用于云游戲、VR/AR、AI推理和DL教學等輕量級GPU計算場景,更細粒度的GPU計算服務。
輕量級GPU云服務器是什么?輕量級GPU云服務器是一種新的GPU云服務器規(guī)格族,是通過公共云的GPU虛擬化技術將分片虛擬化后的GPU資源以虛擬GPU的形式安裝在GPU云服務器實例中。與常規(guī)GPU云服務器的區(qū)別在輕量級GPU云服務器提供更細力度的GPU計算資源,比如擁有更少的CUDA計算核心,更小的顯存。這樣做的優(yōu)勢是在業(yè)務應用中,業(yè)務可以根據資源所需更加靈活的配置GPU計算資源。
GPU的計算顆粒過大:
單顆物理GPU的計算能力越做越強大,但是許多應用需要更小顆粒的GPU計算資源;
常規(guī)GPU資源不利于業(yè)務自動伸縮:
擁有單顆物理GPU資源的實例在業(yè)務部署中會因為要充分利用GPU資源而造成“胖節(jié)點”,不利于設計成彈性伸縮架構,缺乏靈活性,無法應對業(yè)務快速變化;
常規(guī)GPU計算實例無法在線遷移:
常規(guī)直通虛擬化的GPU實例,由于架構特性無法支持GPU實例的在線遷移;
我們從GPU加速器呈現方式,業(yè)務連續(xù)性,計算業(yè)務場景以及使用與管理看不同:
GPU加速器呈現
常規(guī)GPU云服務器實例是通過設備直通方式提供物理GPU加速器;
輕量級GPU云服務器實例是通過GPU虛擬化方式提供虛擬GPU加速器;
業(yè)務連續(xù)性
常規(guī)GPU云服務器僅支持作業(yè)離線遷移
輕量級GPU云服務器支持作業(yè)在線遷移
計算業(yè)務場景
常規(guī)GPU云服務器適用于重負載的GPU加速計算,例如:深度學習訓練與推理計算、HPC計算、重載圖形計算
輕量級GPU云服務器適用于輕負載的GPU加速計算,例如:輕負載的深度學習推理計算、深度學習教學場景、云游戲與VR/AR場景
使用與管理
常規(guī)GPU云服務器提供彈性計算服務實例、業(yè)務擴展以單顆物理GPU資源方式增加
輕量級GPU云服務器依然提供彈性計算服務實例,但業(yè)務擴展以更小粒度GPU資源方式增加(例如:1/8或1/4顆Tesla P4的資源);
技術亮點:支持用戶在公共云上創(chuàng)建更小顆粒的虛擬GPU的云服務器實例。
技術領先性有三點:
任何一項領先的計算技術要將其移植到公共云上輸出,還是要遵循可靠性、經濟性和易用性的技術要求。
首先是可靠性,公共云服務器首先是公共服務,要給所有用戶提供“簡單可依賴”的基礎服務;雖然虛擬化GPU技術在私有部署條件下使用比較成熟,但是在公共云上使用還是要面臨幾個可靠性的挑戰(zhàn)的:第一是數據安全性;第二是資源隔離;這兩個問題在私有部署條件下通常是沒有要求的,原因是私有部署都是給同一用戶部署使用,安全和資源爭搶問題都比較容易解決。但是,要在公共云上使用,這些問題在公共云上就必須解決。
其次是經濟性,用戶能選擇使用輕量級GPU云服務器出發(fā)點是希望更加精細的使用GPU資源,本質是追求經濟性。虛擬化GPU技術在私有環(huán)境部署,因為需求確定,可以根據預想好的使用場景來配置虛擬化比例,但在公共云場景就要解決既要滿足所有用戶的使用場景,又要保持調度系統的高效,不斷降低成本,追求經濟性。
最后是易用性,易用性表現在幾個方面,一個是管理接口和使用習慣與其他ECS實例保持一致,另一個是APP在GPU實例中的使用場景和方式與其他常規(guī)GPU實例保持一致。這樣用戶就沒有學習成本了。
GPU實例的用法與普通彈性計算實例一樣便捷,用戶可以使用Web控制臺或者OpenAPI方式配置和購買服務。用戶在使用過程中可以完全掌控該實例,該實例在阿里云計算環(huán)境中運行,還可以配合其他云服務一起使用。當用戶業(yè)務遇到業(yè)務高峰時可以在數分鐘內擴展新的實例來適應業(yè)務增長。用戶在虛擬化GPU服務的使用全過程中均可以享受到在線服務咨詢和快速故障處理服務。
輕量級GPU云服務器的實例有哪些?目前開放售賣基于NVIDIA Tesla P4的VGN5i實例,該實例提供八分之一到一比一的虛擬GPU加速器;
后面會上線基于NVIDIA Tesla T4的VGN6i實例,該實例提供十六分之一到一比一的虛擬GPU加速器;
輕量級GPU云服務器可以根據業(yè)務需求配置創(chuàng)建貼合業(yè)務所需計算資源的GPU云服務器實例,因此可以在每個輕量級GPU云服務器實例上僅運行一個計算業(yè)務負載,在業(yè)務峰值來臨時,橫向擴展某一個計算業(yè)務負載即可。這樣的特性十分適合互聯網業(yè)務中AI計算的批量部署以及云游戲,AR/VR在云端應用和深度學習的教學實驗場景。
VGN5i的用戶價值有哪些?VGN5i的用戶價值包括:降低批量部署GPU實例的成本,可以輕松實現快速彈性伸縮以及提高運維效率。
降低批量部署成本
在諸多圖形計算和AI推理計算的場景中,用戶通常并不要求單GPU實例的計算性能十分強大,而是更加關注業(yè)務在批量部署中的成本。小粒度的虛擬化GPU實例則更加合適這些場景,很好的平衡用戶業(yè)務在批量部署中的成本需求。
實現快速彈性伸縮
擁有了小粒度的虛擬化GPU實例,用戶不必再為了匹配較強的物理GPU資源而將服務部署成為復雜的胖服務節(jié)點,而是可以基于容器方式將有GPU計算需求的服務都解耦部署在不同的虛擬化GPU實例節(jié)點上。這樣部署的瘦服務節(jié)點更加有利于快速彈性伸縮,在業(yè)務的任何時刻都可以應對自如,提高業(yè)務運維效率。
提高運維效率
使用小顆粒的虛擬化GPU實例進行瘦服務節(jié)點部署,使得服務環(huán)境配置和服務接口變得簡單,使用不同的鏡像即可部署大規(guī)模的AI應用而無需部署復雜的胖節(jié)點,提供運維效率,降低時間風險和成本。
直播觀看地址:https://yq.aliyun.com/live/938
查看產品VGN5i:https://www.aliyun.com/product/ecs/gpu
VGN5i·釋放GPU計算新動力:https://promotion.aliyun.com/ntms/act/vgpu.html
阿里云新品發(fā)布會頻道:https://promotion.aliyun.com/ntms/act/cloud/product.html
阿里云新品發(fā)布·周刊:https://yq.aliyun.com/publication/36
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://systransis.cn/yun/3173.html
摘要:點擊訂閱云棲夜讀周刊阿里云發(fā)布了國內首個公共云上的輕量級異構計算產品實例,該實例打破了傳統直通模式的局限,可以提供比單顆物理更細粒度的服務,從而讓客戶以更低成本更高彈性開展業(yè)務?!军c擊訂閱云棲夜讀周刊】 阿里云發(fā)布了國內首個公共云上的輕量級GPU異構計算產品——VGN5i實例,該實例打破了傳統直通模式的局限,可以提供比單顆物理GPU更細粒度的服務,從而讓客戶以更低成本、更高彈性開展業(yè)務。適...
摘要:人工智能正在召喚神龍。阿里云發(fā)布首個異構超算集群人工智能特別是深度學習,對算力的要求永無止境。除了神龍異構超算集群外,阿里云還發(fā)布了新版本可兼容加速器和小程序云。人工智能正在召喚神龍。3月21日,阿里云發(fā)布業(yè)內首個公共云異構超算集群——基于彈性裸金屬服務器神龍X-Dragon的SCC-GN6,集群性能接近線性增長,將深度學習訓練時間縮短至分鐘級,可滿足無人駕駛、智能推薦、機器翻譯等人工智能場...
摘要:點擊訂閱云棲夜讀周刊是阿里級計算平臺,經過十年磨礪,它成為阿里巴巴集團數據中臺的計算核心和阿里云大數據的基礎服務?!军c擊訂閱云棲夜讀周刊】 MaxCompute 是阿里EB級計算平臺,經過十年磨礪,它成為阿里巴巴集團數據中臺的計算核心和阿里云大數據的基礎服務。 熱點熱議 阿里靠什么支撐 EB 級計算力? 作者:技術小能手?發(fā)表在:阿里技術 Tablestore Timestream:為海...
摘要:點擊訂閱云棲夜讀周刊在歷史文章如何成為優(yōu)秀的技術主管中,阿里巴巴高級技術專家云狄從開發(fā)規(guī)范開發(fā)流程技術規(guī)劃與管理三個角度,分享對技術的理解與思考?!军c擊訂閱云棲夜讀周刊】 在歷史文章《如何成為優(yōu)秀的技術主管?》中,阿里巴巴高級技術專家云狄從開發(fā)規(guī)范、開發(fā)流程、技術規(guī)劃與管理三個角度,分享對技術 TL 的理解與思考。 熱點熱議 在阿里做了五年技術主管,我有話想說 作者:技術小能手?發(fā)表在:...
摘要:點擊訂閱云棲夜讀周刊如果說以不斷提升插件能力和可擴展能力的基礎設施開源項目民主化進程是在年的核心主題的話,那么在年,這個技術社區(qū)的發(fā)展脈絡又是怎樣的呢熱點熱議從發(fā)布,看技術社區(qū)演進方向作者技術小能手發(fā)表在阿里技術螞蟻中間件【點擊訂閱云棲夜讀周刊】 如果說以不斷提升插件能力和可擴展能力的 基礎設施開源項目民主化進程是 Kubernetes 在2017-2018年的核心主題的話,那么在2019...
閱讀 2097·2021-10-08 10:21
閱讀 2490·2021-09-29 09:34
閱讀 3504·2021-09-22 15:51
閱讀 4946·2021-09-22 15:46
閱讀 2323·2021-08-09 13:42
閱讀 3445·2019-08-30 15:52
閱讀 2733·2019-08-29 17:13
閱讀 1563·2019-08-29 11:30