摘要:在低端領(lǐng)域,在上訓練模型的價格比便宜兩倍。硬件定價價格變化頻繁,但目前提供的實例起價為美元小時,以秒為增量計費,而更強大且性能更高的實例起價為美元小時。
隨著越來越多的現(xiàn)代機器學習任務(wù)都需要使用GPU,了解不同GPU供應(yīng)商的成本和性能trade-off變得至關(guān)重要。
初創(chuàng)公司Rare Technologies最近發(fā)布了一個超大規(guī)模機器學習基準,聚焦GPU,比較了幾家受歡迎的硬件提供商,在機器學習成本、易用性、穩(wěn)定性、可擴展性和性能等方面的性能。
在6大GPU硬件平臺上,執(zhí)行Twitter情緒分類任務(wù)(大約150萬條推文,4個時期),訓練雙向LSTM的成本。由上圖可知,專用服務(wù)器是控制成本的較佳選擇。
這項基準測試橫向比較了以下硬件平臺:亞馬遜AWS EC2,谷歌Google Cloud Engine GCE,IBM Softlayer,Hetzner,Paperspace,以及LeaderGPU,這些硬件提供商都在這項測試期間提供了credits和支持?;鶞拾l(fā)布時,微軟Azure官方還沒有回應(yīng),因此很遺憾沒有納入比較。
不過,這項測試還是涵蓋各種不同類型的GPU平臺:提供虛擬機的(AWS,GCE),裸機基礎(chǔ)設(shè)施(Softlayer),專用服務(wù)器(Hetzner)和專門提供GPUaaS的(LeaderGPU,Paperspace),也算很全面。研究人員也表示,他們希望通過測試,看看高端GPU是否更真的值價。
先說結(jié)果,經(jīng)過這個測試后他們發(fā)現(xiàn):
*這些是多GPU實例的結(jié)果,使用multi_gpu_model的multi_gpu_model函數(shù)在所有GPU上訓練模型,后來發(fā)現(xiàn)對多GPU利用率不足。?
**由于上述原因,這些GPU模型僅使用多GPU種的其中一個進行訓練。?
+ Hzzner是按月收費,提供專用服務(wù)器。
基準設(shè)置:Twitter文本情緒分類任務(wù)
接下來,我們將詳細討論和比較所有的平臺,以及這項測試的情況。
任務(wù) 這項基準使用的是情緒分類任務(wù)(sentiment classification task [1])。具體說,訓練雙向LSTM來對Twitter的推文做二元分類。算法的選擇并不是很重要,作者Shiva Manne表示,他對這個基準測試的真正要求,是這項任務(wù)是否應(yīng)該是GPU密集型的。為了確保GPU的較大利用率,他使用了由CuDNN( CuDNNLSM層)支持的Keras快速LSTM實現(xiàn)。
數(shù)據(jù)集 Twitter情緒分析數(shù)據(jù)集(Twitter Sentiment Analysis Dataset [2]),包含1,578,627條分過類的推文,每行用“1”標記為積極情緒,“0”表示消極情緒。模型對90%(shuffled)數(shù)據(jù)進行了4個epoch的訓練,剩下的10%用于模型評估。
Docker 為了可重復性,他們創(chuàng)建了一個Nvidia Docker鏡像 ,其中包含重新運行此基準測試所需的所有依賴項和數(shù)據(jù)。Dockerfile和所有必需的代碼可以在這個Github[3]庫中找到。
訂購和使用:LeaderGPU、AWS、Paperspace尤其適合初學者
在LeaderGPU和Paperspace上的訂購過程非常順暢,沒有任何復雜的設(shè)置(settings)。與AWS或GCE相比,Paperspace和LeaderGPU的供應(yīng)時間要稍長一些(幾分鐘)。
LeaderGPU,Amazon和Paperspace提供免費的深度學習機器圖像(Deep Learning Machine Images),這些圖像預安裝了Nvidia驅(qū)動程序,Python開發(fā)環(huán)境和Nvidia-Docker,基本上立即就能啟動實驗。這讓事情變得容易很多,尤其是對于那些只希望嘗試機器學習模型的初學者。但是,為了評估定制實例滿足個性化需求的難易程度,Manne從零開始(除了LeaderGPU),設(shè)置了所有的東西。在這個過程中,他發(fā)現(xiàn)了各家平臺常見的一些問題,例如NVIDIA驅(qū)動與安裝的gcc版本不兼容,或者在安裝驅(qū)動之后,沒有證據(jù)表明正在運行程序,但GPU的使用率卻達到100%。?
意外的是,在Paperspace低端實例(P6000)上運行Docker導致錯誤,這是由由Docker上的Tensorflow是由源優(yōu)化(MSSE,MAVX,MFMA)構(gòu)建的,而Paperspace實例不支持。在沒有這些優(yōu)化的情況下運行Docker可以解決這個問題。
至于穩(wěn)定性,各家表現(xiàn)都很好,沒有遇到任何問題。
成本:專用服務(wù)器是控制成本的較佳選擇;更便宜的GPU性價比更高
不出所料,專用服務(wù)器是控制成本的較佳選擇。這是因為Hetzner按月收費,這意味著每小時的價格非常低,而且這個數(shù)字是按比例分攤的。所以,只要你的任務(wù)足夠多,讓服務(wù)器不會閑著,選擇專用服務(wù)器就是正確的。
在虛擬機供應(yīng)商中,Paperspace是明顯的贏家。在低端GPU領(lǐng)域,在Paperspace上訓練模型的價格比AWS便宜兩倍($1.6 vs $3.3)。Paperspace進一步顯示了,在高端GPU部分也有類似的成本效益模式。
剛才你可能已經(jīng)看過這張圖了,不過配合這里討論的話題,再看一次:
基準測試結(jié)果:在各種GPU硬件平臺上對Twitter情緒分類任務(wù)(大約150萬條推文,4個時期)進行雙向LSTM訓練的成本。
在AWS和GCE之間,低端GPU是AWS稍貴($3.3 vs $2.4),但在高端GPU領(lǐng)域則反了過來($3.3 vs $3.4)。這意味著,選高端GPU,AWS可能更好,多付出的那部分價錢或許能收到回報。
需要指出,IBM Softlayer和LeaderGPU看起來很貴,主要是由于其多GPU實例的利用率不足。這項基準測試使用Keras框架進行,因此多GPU實現(xiàn)的效率驚人地低,有時甚至比同一臺機器上運行的單個GPU更差。而這些平臺都不提供單個的GPU實例。在Softlayer上運行的基準測試使用了所有可用的GPU,使用multi_gpu_model的multi_gpu_model函數(shù),而multi_gpu_model上的測試只使用了一個可用的GPU。這導致資源利用不足,產(chǎn)生了很多的額外成本。
另外,LeaderGPU提供了更強大的GPU GTX 1080 Ti和Tesla V100,價格卻與GTX 1080和Tesla P100相同(每分鐘)。在這些服務(wù)器上運行,肯定會降低整體成本。綜上,LeaderGPU在圖表中,低端GPU成本部分,實際上是相當合理的。如果你打算使用非Keras框架,更好地利用多個GPU時,記住這些很重要。
另外還有一個大趨勢,更便宜的GPU比更貴的GPU性價比更高,這表明訓練時間的減少,并不能抵消總成本的增加。
使用Keras做多GPU訓練模型:加速難以預測
既然也說到了使用Keras訓練多GPU模型,就多說幾句。
很多學術(shù)界和產(chǎn)業(yè)界人士非常喜歡使用像Keras這樣的高級API來實現(xiàn)深度學習模型。Keras本身也很流行,接受度高,迭代更新也快,用戶會以為使用Keras就不需要任何額外處理,能加快轉(zhuǎn)換到多GPU模型。
但實際情況并非如此,從下圖可以看出。?
加速相當難以預測,與“雙P100”服務(wù)器上的單GPU訓練相比,“雙GTX 1080”服務(wù)器顯然有了加速,但多GPU訓練卻花費了更長的時間。這種情況在一些博客和Github issue中都有提出,也是Manne在調(diào)查成本過程中遇到的值得注意的問題。
模型精準度、硬件定價、現(xiàn)貨測評及體驗感受
模型精準度
我們在訓練結(jié)束時對模型最終的精度做了完整性測試,從表1可以看出,底層硬件/平臺對訓練質(zhì)量沒有影響,基準設(shè)置正確。
硬件定價
GPU價格變化頻繁,但目前AWS提供的K80 GPU(p2實例)起價為0.9美元/小時,以1秒為增量計費,而更強大且性能更高的Tesla V100 GPU(p3實例)起價為3.06美元/小時。數(shù)據(jù)傳輸、彈性IP地址和EBS優(yōu)化實例等附加服務(wù)需要支付額外費用。 GCE是一種經(jīng)濟的替代方案,它可以按照0.45美元/小時和1.46美元/小時的價格分別提供K80和P100。這些收費以一秒為增量,并通過基于折扣的使用有可觀的獎勵。盡管與AWS不同,它們需要附加到CPU實例(n1-standard-1,價格為0.0475美元/小時)。
Paperspace在低成本的聯(lián)盟中與GCE競爭,專用GPU有Quadro M4000,0.4美元/小時,也有2.3美元/小時的Tesla V100。除了慣常的小時費外,他們還要收取月租費(每月5美元),服務(wù)包括儲存和維修。以毫秒為基礎(chǔ)的論文空間賬單,附加服務(wù)可以以補充成本獲得。 Hetzner每月僅提供一臺配備GTX 1080的專用服務(wù)器,并額外支付一次設(shè)置費用。
IBM Softlayer是市場上為數(shù)不多的每月和每小時提供帶有GPU的裸機服務(wù)器的平臺之一。它提供3個GPU服務(wù)器(包含特斯拉M60s和K80s),起價為2.8美元/小時。這些服務(wù)器具有靜態(tài)配置,這意味著與其他云提供商相比,其定制可能性有限。以小時為單位的軟計算結(jié)果也是非常糟糕的,而且對于短時間運行的任務(wù)而言可能更昂貴。
LeaderGPU是一個相對較新的玩家,它提供了多種GPU(P100s,V100s,GTX1080s,GTX1080Ti)的專用服務(wù)器。用戶可以利用按秒計費的每小時或每分鐘定價。服務(wù)器至少有2個GPU,最多8個GPU,價格從0.02歐元/分鐘到0.08歐元/分鐘。
現(xiàn)貨/搶先實例
某些平臺在其備用計算容量(AWS spot實例和GCE的搶先實例)上提供了顯著的折扣(50%-90%),盡管它們隨時可能意外終止。這會導致高度不可預測的訓練時間,因為不能保證實例何時再次啟動。對于可以處理這種終端但是有許多任務(wù)的應(yīng)用程序來說,這很好,而時間限制的項目在這種情況下不會很好(特別是如果考慮浪費的勞動時間)。
在搶先實例上運行任務(wù)需要額外的代碼來優(yōu)雅地處理實例的終止和重新啟動(檢查點/將數(shù)據(jù)存儲到永久磁盤等)。此外,價格波動可能導致成本在很大程度上取決于基準運行時的產(chǎn)能供求。這將需要多次運行來平均成本。鑒于在完成基準測試時所花的時間有限,我沒有以現(xiàn)場/先發(fā)實例為基準。
體驗評論
Paperspace似乎在性能和成本方面領(lǐng)先一步,尤其適合希望深度學習技術(shù)的實驗在另一個基準測試中得出類似的結(jié)論。
專用服務(wù)器(如LeaderGPU提供的服務(wù)器)和裸機服務(wù)器(如Hetzner)適合考慮長期使用這些資源(doh)的用戶。但請注意,由于在定制服務(wù)器方面靈活性較差,因此請確保您的任務(wù)具有高度的CPU / GPU密集度以真正感受物超所值。
像Paperspace和LeaderGPU這樣的新玩家不應(yīng)該被解雇,因為他們可以幫助削減大部分的成本。由于相關(guān)的慣性和轉(zhuǎn)換成本,企業(yè)可能不愿意切換提供商,但這些小型平臺值得考慮。
AWS和GCE對于尋求與其他服務(wù)集成的用戶來說是非常棒的選擇(AI集成 - 亞馬遜的Rekognition,Google的Cloud AI)。
除非你計劃需要幾天完成任務(wù),否則堅持一個低端的單個GPU實例是較好的選擇。
更高端的GPU運行更快,但實際上投資回報率更差。只有在較短的訓練時間(較少的研發(fā)周期)比硬件成本更重要時,才應(yīng)該選擇這些方案。
原文鏈接:
https://rare-technologies.com/machine-learning-benchmarks-hardware-providers-gpu-part-2/
參考資料:
[1] http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/
[2] http://deeplearning.net/tutorial/lstm.html
[3] https://github.com/RaRe-Technologies/benchmark_GPU_platforms
商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4734.html
摘要:用于機器學習人工智能數(shù)據(jù)分析的基于云計算的工具日前增多。亞馬遜公司創(chuàng)建了,以簡化使用其機器學習工具的工作。用于機器學習、人工智能、數(shù)據(jù)分析的基于云計算的工具日前增多。其中的一些應(yīng)用是在基于云計算的文檔編輯和電子郵件,技術(shù)人員可以通過各種設(shè)備登錄中央存儲庫,并在遠程位置,甚至在路上或海灘上進行工作。云計算可以處理文件備份和同步,簡化工作流程。數(shù)據(jù)分析是很多組織在云計算平臺進行的一項主要計算工作...
摘要:關(guān)于請點擊這里隨著谷歌新機器學習平臺的首次展示,等于在這片沙地上首次插入了這面旗幟,后續(xù)會有比如,的等等有著高級機器學習和云基礎(chǔ)設(shè)施的公司比如紛至沓來。 在NEXT2016會議上,Google的Eric Schmidt提到Google所占最大的優(yōu)勢之一就是站在云計算下一個十年的前沿。它不是基礎(chǔ)設(shè)施或者軟件,也不像純數(shù)據(jù)一樣簡單。 Crowdsourced 智能,是個進化,可以創(chuàng)建更加智...
摘要:關(guān)于請點擊這里隨著谷歌新機器學習平臺的首次展示,等于在這片沙地上首次插入了這面旗幟,后續(xù)會有比如,的等等有著高級機器學習和云基礎(chǔ)設(shè)施的公司比如紛至沓來。 在NEXT2016會議上,Google的Eric Schmidt提到Google所占最大的優(yōu)勢之一就是站在云計算下一個十年的前沿。它不是基礎(chǔ)設(shè)施或者軟件,也不像純數(shù)據(jù)一樣簡單。 Crowdsourced 智能,是個進化,可以創(chuàng)建更加智...
摘要:亞馬遜也宣布推出,這是一款完全自主的規(guī)模賽車,旨在幫助開發(fā)人員學習機器學習。此次問世,更是亞馬遜要進一步占領(lǐng)市場的節(jié)奏。那么,面對已經(jīng)發(fā)布芯片的谷歌云阿里云或者華為云,亞馬遜真的要祭出大殺招,不戰(zhàn)不休了。本周,亞馬遜AWS re:Invent 2018大會在拉斯維加斯舉辦,AWS首席執(zhí)行官Andy Jassy在會上發(fā)布了一款名為Inferentia的首款云端AI芯片。他表示,Inferent...
摘要:谷歌公司公布了其年的云計算市場收入。公司對其云計算市場收入進行了詳細記錄并且認為自治功能和數(shù)據(jù)即服務(wù)是與其他公有云服務(wù)商最大的差異。用戶的采用率公司對行業(yè)廠商的名受訪者進行的調(diào)查表明和微軟是業(yè)界公認的兩大頂級公有云服務(wù)商。近來,公司規(guī)模已經(jīng)不再是企業(yè)選擇云服務(wù)商的重要因素,市場對云服務(wù)商優(yōu)劣的判斷有了多種標準。企業(yè)對全球一些大型云計算服務(wù)商(例如亞馬遜AWS,谷歌云平臺,IBM Cloud和...
閱讀 1390·2021-09-22 10:02
閱讀 1914·2021-09-08 09:35
閱讀 4062·2021-08-12 13:29
閱讀 2610·2019-08-30 15:55
閱讀 2265·2019-08-30 15:53
閱讀 2302·2019-08-29 17:13
閱讀 2763·2019-08-29 16:31
閱讀 2957·2019-08-29 12:24