摘要:深度學(xué)習(xí)是一個(gè)對(duì)算力要求很高的領(lǐng)域。這一早期優(yōu)勢(shì)與英偉達(dá)強(qiáng)大的社區(qū)支持相結(jié)合,迅速增加了社區(qū)的規(guī)模。對(duì)他們的深度學(xué)習(xí)軟件投入很少,因此不能指望英偉達(dá)和之間的軟件差距將在未來(lái)縮小。
深度學(xué)習(xí)是一個(gè)對(duì)算力要求很高的領(lǐng)域。GPU的選擇將從根本上決定你的深度學(xué)習(xí)體驗(yàn)。
一個(gè)好的GPU可以讓你快速獲得實(shí)踐經(jīng)驗(yàn),而這些經(jīng)驗(yàn)是正是建立專(zhuān)業(yè)知識(shí)的關(guān)鍵。如果沒(méi)有這種快速的反饋,你會(huì)花費(fèi)過(guò)多時(shí)間,從錯(cuò)誤中吸取教訓(xùn)。
那么,現(xiàn)在問(wèn)題來(lái)了。
如果你想購(gòu)買(mǎi)新的GPU,應(yīng)該關(guān)注哪些指標(biāo)呢?GPU RAM,內(nèi)核,還是Tensor Core?
各種廠商五花八門(mén)。英偉達(dá),英特爾,還是谷歌?我又應(yīng)該選擇哪家的產(chǎn)品?
本文將深入研究這些問(wèn)題,并將為你提供建議,幫助你做出適合的選擇。
本文結(jié)構(gòu)如下:
首先,我會(huì)討論擁有多個(gè)GPU的用處,然后討論所有相關(guān)的硬件選項(xiàng),如英偉達(dá)和AMD GPU,Intel Xeon Phis,Google TPU和初創(chuàng)公司的硬件。然后我會(huì)討論哪些GPU規(guī)格指標(biāo)是深度學(xué)習(xí)性能的良好指標(biāo)。最后,我會(huì)總結(jié)GPU的選購(gòu)建議。
只想閱讀最終采購(gòu)建議的同學(xué)可以直接跳到文末。
多個(gè)GPU能讓我的訓(xùn)練更快嗎?
我的核心觀點(diǎn)是,卷積和循環(huán)網(wǎng)絡(luò)很容易并行化,特別是當(dāng)你只使用一臺(tái)計(jì)算機(jī)或4個(gè)GPU時(shí)。然而,包括Google的Transformer在內(nèi)的全連接網(wǎng)絡(luò)并不能簡(jiǎn)單并行,并且需要專(zhuān)門(mén)的算法才能很好地運(yùn)行。
圖1:主計(jì)算機(jī)中的設(shè)置:你可以看到三個(gè)GPU和一個(gè)InfiniBand網(wǎng)卡。這是一個(gè)很好的深度學(xué)習(xí)配置嗎?
像TensorFlow和PyTorch這樣的現(xiàn)代庫(kù)非常適合并行化循環(huán)和卷積網(wǎng)絡(luò)。以卷積為例,2/3/4 塊GPU的期望加速大約分別是1.9x / 2.8x / 3.5x。對(duì)于循環(huán)網(wǎng)絡(luò),序列長(zhǎng)度是最重要的參數(shù),在常見(jiàn)的NLP問(wèn)題中,對(duì)應(yīng)的加速比與卷積網(wǎng)絡(luò)相似或稍差。
然而,全連接網(wǎng)絡(luò)(包括Transformer)通常具有較差的數(shù)據(jù)并行性能,并且需要更高級(jí)的算法來(lái)加速網(wǎng)絡(luò)的這些部分。如果你在多個(gè)GPU上運(yùn)行Transformer,你應(yīng)該也嘗試在單個(gè)GPU上運(yùn)行,并比較查看是否真的有加速。
在不考慮并行性的情況下使用多個(gè)GPU
除了并行運(yùn)算,擁有多個(gè)GPU能帶來(lái)的更顯著幫助是,讓你可以在每個(gè)GPU上多帶帶運(yùn)行多個(gè)算法或?qū)嶒?yàn)。
高效的超參數(shù)搜索是多個(gè)GPU的最常見(jiàn)用途。雖然你沒(méi)有獲得加速,但你可以獲得有關(guān)不同超參數(shù)設(shè)置或不同網(wǎng)絡(luò)架構(gòu)的性能的更快信息。這對(duì)新手來(lái)說(shuō)也非常有用,因?yàn)槟憧梢钥焖佾@得訓(xùn)練不熟悉的深度學(xué)習(xí)架構(gòu)的見(jiàn)解和經(jīng)驗(yàn)。
以這種方式使用多個(gè)GPU通常比通過(guò)數(shù)據(jù)并行在多個(gè)GPU上運(yùn)行單個(gè)網(wǎng)絡(luò)更有用。購(gòu)買(mǎi)多個(gè)GPU時(shí),請(qǐng)記住這一點(diǎn):當(dāng)你購(gòu)買(mǎi)多個(gè)GPU時(shí),用于提高并行性的指標(biāo)(如PCIe通道數(shù)量)并不重要。
另外,請(qǐng)注意,單個(gè)GPU應(yīng)該足以滿足幾乎所有任務(wù)的要求。單GPU的體驗(yàn)范圍與4個(gè) GPU的體驗(yàn)不會(huì)差太多。的區(qū)別是,你可以在給定時(shí)間內(nèi)使用多個(gè)GPU運(yùn)行更多實(shí)驗(yàn)。
你該如何選擇:英偉達(dá) vs AMD vs 英特爾 vs 谷歌 vs 亞馬遜 vs 微軟 vs 初創(chuàng)公司
英偉達(dá):領(lǐng)導(dǎo)者
英偉達(dá)的標(biāo)準(zhǔn)庫(kù)使得在CUDA中建立第一個(gè)深度學(xué)習(xí)庫(kù)非常容易,而AMD的OpenCL沒(méi)有這樣強(qiáng)大的標(biāo)準(zhǔn)庫(kù)。這一早期優(yōu)勢(shì)與英偉達(dá)強(qiáng)大的社區(qū)支持相結(jié)合,迅速增加了CUDA社區(qū)的規(guī)模。這意味著只要你使用英偉達(dá) GPU,如果出現(xiàn)問(wèn)題,你將很容易找到支持;如果你自己編寫(xiě)CUDA,你會(huì)找到支持和建議;并且你會(huì)發(fā)現(xiàn)大多數(shù)深度學(xué)習(xí)庫(kù)都對(duì)英偉達(dá) GPU提供較佳支持。在過(guò)去的幾個(gè)月里,英偉達(dá)仍將更多的資源投入到軟件中。例如,Apex庫(kù)支持在PyTorch中實(shí)現(xiàn)穩(wěn)定的16位梯度,還包括融合快速優(yōu)化器,如FusedAdam??偟膩?lái)說(shuō),軟件是英偉達(dá) GPU非常強(qiáng)大的一步。
另一方面,英偉達(dá)現(xiàn)在有一項(xiàng)政策,即只允許Tesla GPU在數(shù)據(jù)中心使用CUDA,而不允許GTX或RTX卡。目前外界尚不清楚“數(shù)據(jù)中心”的嚴(yán)格定義,但這意味著,由于擔(dān)心法律問(wèn)題,組織和大學(xué)將被迫購(gòu)買(mǎi)價(jià)格昂貴且性價(jià)比低的Tesla GPU。然而,Tesla卡與GTX和RTX卡相比沒(méi)有真正的優(yōu)勢(shì),成本卻高達(dá)10倍。
英偉達(dá)可以在沒(méi)有任何重大阻力的情況下做到這一點(diǎn),正表明了他們壟斷的力量——他們可以隨心所欲地做,我們必須接受這些條款。如果你選擇了英偉達(dá) GPU在社區(qū)和支持方面的主要優(yōu)勢(shì),你也需要同時(shí)接受隨時(shí)可能出現(xiàn)的各種限制。
AMD:功能強(qiáng)大但缺乏支持
HIP通過(guò)ROCm將英偉達(dá)和AMD GPU統(tǒng)一為一種通用編程語(yǔ)言,在編譯成GPU組件之前編譯成相應(yīng)的GPU語(yǔ)言。如果我們將所有GPU代碼都放在HIP中,這將是一個(gè)重要的里程碑,但這很困難,其中就包含了移植TensorFlow和PyTorch代碼庫(kù)。 TensorFlow和PyTorch對(duì)AMD GPU有一些支持,所有主要網(wǎng)絡(luò)都可以在AMD GPU上運(yùn)行,但如果你想開(kāi)發(fā)新網(wǎng)絡(luò),可能會(huì)遺漏一些細(xì)節(jié),這可能會(huì)阻止你實(shí)現(xiàn)你需要的東西。 ROCm社區(qū)也不是太大,因此很難直接解決問(wèn)題。 AMD對(duì)他們的深度學(xué)習(xí)軟件投入很少,因此不能指望英偉達(dá)和AMD之間的軟件差距將在未來(lái)縮小。
目前,AMD GPU的性能還可以。它們現(xiàn)在具有16位計(jì)算能力,這是一個(gè)重要的里程碑,但英偉達(dá) GPU的Tensor核心為T(mén)ransformer和卷積網(wǎng)絡(luò)提供了更高的計(jì)算性能(不過(guò)對(duì)于詞級(jí)循環(huán)網(wǎng)絡(luò)而言,沒(méi)有提高那么多)。
總的來(lái)說(shuō),我認(rèn)為對(duì)于那些只希望GPU能夠順利運(yùn)行的普通用戶,我不太推薦AMD GPU。更有經(jīng)驗(yàn)的用戶應(yīng)該可以減少問(wèn)題,并且通過(guò)支持AMD GPU和ROCm / HIP開(kāi)發(fā)人員,他們有助于打擊英偉達(dá)的壟斷地位,因?yàn)檫@將使每個(gè)人長(zhǎng)期受益。如果你是GPU開(kāi)發(fā)人員并希望為GPU計(jì)算做出重要貢獻(xiàn),那么AMD GPU可能是長(zhǎng)期發(fā)揮良好影響力的較佳方式。對(duì)于其他所有人來(lái)說(shuō),英偉達(dá) GPU可能是更安全的選擇。
英特爾:努力追趕
以我的親身經(jīng)歷而言,我對(duì)英特爾Xeon Phis非常失望,我不認(rèn)為它們是英偉達(dá)或AMD顯卡的真正競(jìng)爭(zhēng)對(duì)手,因此我只簡(jiǎn)單描述一下:如果你決定使用Xeon Phi,你可能會(huì)遇到以下問(wèn)題:很差的技術(shù)支持,代碼運(yùn)行得比CPU還慢,編寫(xiě)優(yōu)化代碼困難,沒(méi)有完全支持C ++ 11特性,不支持某些重要的GPU設(shè)計(jì)模式,難以兼容依賴BLAS例程的其他庫(kù)(NumPy和SciPy)等等。
除了Xeon Phi之外,我非常期待英特爾的Nervana神經(jīng)網(wǎng)絡(luò)處理器(NNP),因?yàn)樗囊?guī)格對(duì)GPU開(kāi)發(fā)人員而言非常強(qiáng)大,并且它將允許新的算法,這可能重新定義神經(jīng)網(wǎng)絡(luò)的使用方式,但這一項(xiàng)目已經(jīng)無(wú)休止地延遲,有傳言稱(chēng)大部分研發(fā)都打了水漂。NNP計(jì)劃于2019年第三季度/第四季度開(kāi)始。如果你想等待那么長(zhǎng)時(shí)間,請(qǐng)記住,從AMD和英特爾自己的Xeon Phi可以看出,好的硬件并非一切??赡苤钡?020年或2021年,NNP才有能力與GPU或TPU競(jìng)爭(zhēng)
谷歌:強(qiáng)大,廉價(jià)的按需處理
Google TPU已發(fā)展成為一種非常成熟的基于云的產(chǎn)品,具有成本效益。理解TPU的最簡(jiǎn)單方法是將其視為打包在一起的多個(gè)專(zhuān)用GPU——而且只為了一個(gè)目的:進(jìn)行快速矩陣乘法。如果我們看一下Tensor-Core-enabled V100與TPU v2的性能指標(biāo),我們發(fā)現(xiàn)兩個(gè)系統(tǒng)在運(yùn)行ResNet50模型時(shí)的性能幾乎相同。
但是,Google TPU更具成本效益。由于TPU具有復(fù)雜的并行化基礎(chǔ)架構(gòu),如果你使用多于1個(gè)云TPU(相當(dāng)于4個(gè)GPU),TPU將比GPU具有更大的速度優(yōu)勢(shì)。
盡管仍在試驗(yàn)中,但PyTorch現(xiàn)在也支持TPU了,這將有助于加強(qiáng)TPU社區(qū)和生態(tài)系統(tǒng)。
TPU仍然存在一些各種各樣的問(wèn)題,例如,2018年2月的一份報(bào)告稱(chēng),當(dāng)使用LSTM時(shí)TPUv2沒(méi)有收斂。我至今沒(méi)有找到該問(wèn)題已經(jīng)解決的報(bào)道。
另一方面,在TPU上訓(xùn)練大型Transformer取得了巨大成功。GPT-2,BERT和機(jī)器翻譯模型可以在TPU上非常有效地進(jìn)行訓(xùn)練。根據(jù)我的估計(jì),TPU比GPU快約56%,并且由于它們與云GPU相比價(jià)格較低,因此它們是大型Transformer項(xiàng)目的絕佳選擇。
然而,在TPU上訓(xùn)練大型模型的一個(gè)問(wèn)題可能是累積成本。TPU具有高性能,最適合在訓(xùn)練階段使用。在原型設(shè)計(jì)階段,你應(yīng)該關(guān)閉云端來(lái)降低成本。因此,較佳選擇是,在你的個(gè)人GPU上進(jìn)行原型設(shè)計(jì),然后在TPU訓(xùn)練最終模型。
總而言之,目前TPU似乎最適合用于訓(xùn)練卷積網(wǎng)絡(luò)或大型Transformer,并且應(yīng)該結(jié)合其他計(jì)算資源共同使用,而不是作為主要的深度學(xué)習(xí)資源。
亞馬遜AWS和微軟Azure:可靠但昂貴
來(lái)自Amazon AWS和微軟Azure的GPU實(shí)例非常具有吸引力,因?yàn)槟憧梢愿鶕?jù)需要輕松擴(kuò)展和縮小實(shí)例。這對(duì)于趕paper或者更大的一次性項(xiàng)目非常有用。然而,與TPU類(lèi)似,成本會(huì)隨實(shí)例數(shù)增長(zhǎng)而迅速累加。目前,GPU云實(shí)例太昂貴而無(wú)法多帶帶使用,我建議在云中啟動(dòng)最終訓(xùn)練工作之前,使用一些專(zhuān)用的廉價(jià)GPU進(jìn)行原型設(shè)計(jì)。
初創(chuàng)公司:具有革命性的硬件概念但缺乏軟件
有一系列初創(chuàng)公司旨在生產(chǎn)下一代深度學(xué)習(xí)硬件。這些公司通常擁有出色的理論設(shè)計(jì),然后被谷歌、英特爾或其他公司收購(gòu),以獲得完成設(shè)計(jì)和生產(chǎn)芯片所需的資金。下一代芯片的開(kāi)發(fā)成本十分昂貴(約10億美元)。一旦這個(gè)階段完成,軟件就成了主要問(wèn)題。目前,還沒(méi)有初創(chuàng)公司能夠生產(chǎn)出適用于當(dāng)前深度學(xué)習(xí)硬件的軟件。需要開(kāi)發(fā)一個(gè)完整的軟件套件才能具有競(jìng)爭(zhēng)力,這一點(diǎn)從AMD與英偉達(dá)的例子中可以清楚地看出:AMD擁有出色的硬件,但只有90%的軟件——這還不足以與英偉達(dá)競(jìng)爭(zhēng)。
目前,沒(méi)有任何公司能夠完成所有的硬件和軟件步驟。英特爾NNP可能是最接近的,但目前來(lái)看,我們不能指望在2020年或2021年之前出現(xiàn)有競(jìng)爭(zhēng)力的產(chǎn)品。所以目前我們需要繼續(xù)使用GPU和TPU。
因此,你就先別指望初創(chuàng)公司的新硬件了。
一個(gè)優(yōu)秀的GPU應(yīng)該擁有什么性能?
訓(xùn)練深度學(xué)習(xí)模型時(shí),GPU性能中最重要的特性到底是什么?是CUDA Core嗎?還是時(shí)鐘頻率?或是RAM大???
GPU的選擇實(shí)在令人困惑:16位計(jì)算能力,Tensor Core,沒(méi)有Tensor Core的16位GPU,多代GPU仍然可行(Turning,Volta,Maxwell)。
所幸我們?nèi)匀挥幸恍┛煽康男阅苤笜?biāo),我們可以使用這些指標(biāo)作為經(jīng)驗(yàn)法則。這里有一些針對(duì)不同深度學(xué)習(xí)架構(gòu)的優(yōu)先級(jí)指南:
卷積網(wǎng)絡(luò)和Transformer:Tensor Core> FLOP>存儲(chǔ)器帶寬> 16位計(jì)算能力
循環(huán)網(wǎng)絡(luò):存儲(chǔ)器帶寬> 16位計(jì)算能力>Tensor Core> FLOP
解釋如下:如果我想使用卷積網(wǎng)絡(luò),我應(yīng)該首先優(yōu)先考慮具有Tensor Core的GPU,然后是高FLOP指數(shù),然后是高內(nèi)存帶寬,然后是具有16位計(jì)算能力的GPU 。在確定優(yōu)先級(jí)時(shí),你也需要根據(jù)模型大小選擇具有足夠內(nèi)存的GPU。
為什么優(yōu)先級(jí)是這樣的呢?
GPU可以快速實(shí)現(xiàn)兩個(gè)最重要的張量操作:矩陣乘法和卷積。
考慮矩陣乘法A * B = C。將A,B的存儲(chǔ)器復(fù)制到芯片上比計(jì)算A * B更昂貴。這意味著,如果你想使用LSTM和其他經(jīng)常進(jìn)行大量小矩陣乘法的循環(huán)網(wǎng)絡(luò),則內(nèi)存帶寬是GPU最重要的特性。矩陣乘法越小,內(nèi)存帶寬就越重要。
相反,卷積受計(jì)算速度的約束。因此,GPU上的TFLOP是ResNets和其他卷積架構(gòu)性能的較佳指標(biāo)。Tensor Core可以明顯增加FLOP。
圖2:GPU和TPU的標(biāo)準(zhǔn)化性能數(shù)據(jù)。越高越好。RTX卡假定16位計(jì)算。RNN編號(hào)指的是長(zhǎng)度小于100的短序列的biLSTM性能。使用PyTorch 1.0.1和CUDA 10完成基準(zhǔn)測(cè)試。
性價(jià)比分析
GPU的性價(jià)比可能是選擇GPU的最重要標(biāo)準(zhǔn)。本文的性能分析如下:
1.對(duì)于Transformer,我對(duì)Transformer-XL和BERT進(jìn)行了基準(zhǔn)測(cè)試。
2.對(duì)于詞級(jí)和字符級(jí)RNN,我對(duì)較先進(jìn)的biLSTM模型進(jìn)行了基準(zhǔn)測(cè)試。
3.(1)和(2)中的基準(zhǔn)測(cè)試是針對(duì)Titan Xp,Titan RTX和RTX 2080 Ti進(jìn)行的。對(duì)于其他卡,我線性地縮放了性能差異。
4.我使用現(xiàn)有的CNN基準(zhǔn)。
5.我使用亞馬遜和eBay的平均成本作為GPU的參考成本。
圖3:卷積網(wǎng)絡(luò)(CNN),循環(huán)網(wǎng)絡(luò)(RNN)和Transformer的標(biāo)準(zhǔn)化性能/成本。越高越好。RTX 2060的成本效率是Tesla V100的5倍以上。RNN編號(hào)指的是長(zhǎng)度小于100的短序列的biLSTM性能。使用PyTorch 1.0.1和CUDA 10完成基準(zhǔn)測(cè)試。
從這些數(shù)據(jù)中,我們看到RTX 2060比RTX 2070,RTX 2080或RTX 2080 Ti更具性價(jià)比。為什么會(huì)這樣呢?使用Tensor Core進(jìn)行16位計(jì)算的能力遠(yuǎn)遠(yuǎn)超過(guò)擁有更多Tensor Core核心的更大的硬件。使用RTX 2060,你可以以較低的價(jià)格獲得這些功能。
然而,這種分析存在一些應(yīng)該考慮的偏差:
1.這種分析強(qiáng)烈傾向于較小的顯卡。較小而經(jīng)濟(jì)高效的GPU可能沒(méi)有足夠的內(nèi)存來(lái)運(yùn)行你真正感興趣的模型!
2.GTX 10xx卡標(biāo)價(jià)過(guò)高:目前,由于游戲玩家不喜歡RTX卡,GTX 10XX卡似乎加價(jià)格被哄抬過(guò)高。
3.單GPU偏置:一臺(tái)具有4個(gè)低成本卡(4x RTX 2080 Ti)的計(jì)算機(jī)比具有較高成本/效率卡(8x RTX 2060)的2臺(tái)計(jì)算機(jī)更具性價(jià)比。
警告:多GPU RTX發(fā)熱問(wèn)題
如果你使用多個(gè)彼此相鄰的GPU,那么RTX 2080 Ti和其他具有標(biāo)準(zhǔn)雙風(fēng)扇的RTX GPU就存在問(wèn)題了——尤其是一臺(tái)計(jì)算機(jī)中的多個(gè)RTX 2080 Ti。多個(gè)RTX 2080和RTX 2070也會(huì)受到影響。
RTX卡上的風(fēng)扇是由英偉達(dá)開(kāi)發(fā)的一種新設(shè)計(jì),用于改善運(yùn)行單GPU的游戲玩家的體驗(yàn)(靜音,低發(fā)熱)。但是,如果你使用具有此開(kāi)放式雙風(fēng)扇設(shè)計(jì)的多個(gè)GPU,那么這種設(shè)計(jì)非常糟糕。如果你想使用多個(gè)彼此相鄰的RTX卡(直接在下一個(gè)PCIe插槽中),那么你應(yīng)該獲得具有“鼓風(fēng)式”單風(fēng)扇設(shè)計(jì)的版本。對(duì)于RTX 2080 Ti卡尤其如此。華碩和PNY目前市場(chǎng)上有RTX 2080 Ti型號(hào),帶有鼓風(fēng)式風(fēng)扇。如果你使用兩個(gè)RTX 2070,你可以使用任何風(fēng)扇,但是,我仍愿意選擇使用一個(gè)鼓風(fēng)式風(fēng)扇,以便在彼此旁邊運(yùn)行2個(gè)以上的RTX 2070。
所需內(nèi)存大小和16位訓(xùn)練
GPU上的內(nèi)存對(duì)于某些應(yīng)用程序(如計(jì)算機(jī)視覺(jué),機(jī)器翻譯和某些其他NLP應(yīng)用程序)至關(guān)重要,你可能認(rèn)為RTX 2070具有性價(jià)比,但其內(nèi)存太小,只有8 GB。但請(qǐng)注意,通過(guò)16位訓(xùn)練,你幾乎可以擁有16 GB的內(nèi)存。任何標(biāo)準(zhǔn)型號(hào)都可以被輕松放入RTX 2070。
RTX 2080和RTX 2080 Ti也是如此。但請(qǐng)注意,在大多數(shù)軟件框架中,16位運(yùn)算并非默認(rèn)選項(xiàng),因?yàn)槟承┛蚣芤?2位存儲(chǔ)權(quán)重以執(zhí)行更較精確的梯度下降。一個(gè)好的經(jīng)驗(yàn)法則是,使用16位計(jì)算往往可以節(jié)省50%的內(nèi)存。因此,16位8GB內(nèi)存的大小與12 GB 32位內(nèi)存大致相當(dāng)。
GPU推薦
目前,我的主要建議是購(gòu)買(mǎi)RTX 2070 GPU并使用16位訓(xùn)練。我永遠(yuǎn)不會(huì)建議購(gòu)買(mǎi)XP Titan,Titan V,任何Quadro顯卡或任何Founders Edition GPU。但是,有一些特定的GPU也有它們的用武之處:
1.如果要額外內(nèi)存的話,我建議使用RTX 2080 Ti。如果你真的需要大量的內(nèi)存,RTX Titan是較好的選擇——但要確保你真的需要那么多內(nèi)存!
2.如果想要額外的性能,我建議使用RTX 2080 Ti。
3.如果你缺錢(qián),我會(huì)推薦eBay上的任何便宜的GTX 10XX卡(取決于你需要多少內(nèi)存)或RTX 2060。如果太貴,可以看看Colab。
https://medium.com/deep-learning-turkey/google-colab-free-gpu-tutorial-e113627b9f5d)
4.如果你只想入門(mén)深度學(xué)習(xí),GTX 1060(6GB)是一個(gè)很好的選擇。
5.如果你已經(jīng)擁有GTX 1070或更高版本,請(qǐng)?jiān)俚鹊?。除非你使用大型Transformer,否則升級(jí)是不值得的。
6.如果你想快速學(xué)習(xí)深度學(xué)習(xí),建議使用多個(gè)GTX 1060(6GB)。
云端深度學(xué)習(xí)
AWS / Azure上的GPU實(shí)例和Google Cloud中的TPU都是深度學(xué)習(xí)的可行選擇。雖然TPU稍微便宜一點(diǎn),但它缺乏云GPU的多功能性和靈活性。
TPU可能是訓(xùn)練物體識(shí)別或Transformer模型的推薦武器。對(duì)于其他工作負(fù)載,云GPU是更安全的選擇——云實(shí)例的好處是你可以隨時(shí)在GPU和TPU之間切換,甚至可以同時(shí)使用兩者。
但是,請(qǐng)注意這樣做的代價(jià):如果你一直使用AWS / Azure完成工作,那么你將無(wú)法學(xué)到如何在個(gè)人GPU上工作的技能,并且你也無(wú)法獲得使用TPU的技能。如果你一直使用個(gè)人GPU,則無(wú)法學(xué)會(huì)通過(guò)云擴(kuò)展到更多GPU / TPU的技能。
如果你使用TPU,當(dāng)你需要完整功能時(shí),你可能就只能使用TensorFlow了。學(xué)習(xí)云GPU / TPU工作流的代價(jià)是很高,如果你正在面臨TPU、云GPU和個(gè)人GPU的選擇,你應(yīng)該意識(shí)到這個(gè)代價(jià)。
另一個(gè)問(wèn)題是,何時(shí)使用云服務(wù)?如果你試圖學(xué)習(xí)深度學(xué)習(xí),或者你需要搭建原型,那么個(gè)人GPU可能是較好的選擇,因?yàn)樵茖?shí)例可能很昂貴。
但是,一旦你找到了良好的深度網(wǎng)絡(luò)配置,并且你只想使用數(shù)據(jù)并行性訓(xùn)練模型,那么使用云實(shí)例是一種可靠的方法。小型GPU足以進(jìn)行原型設(shè)計(jì),而人們可以依靠云計(jì)算的強(qiáng)大功能來(lái)擴(kuò)展到更大的實(shí)驗(yàn)。
如果你的資金不足,云計(jì)算實(shí)例也可能是一個(gè)很好的解決方案:在CPU上進(jìn)行原型設(shè)計(jì),然后在GPU / TPU實(shí)例上實(shí)驗(yàn),以便快速進(jìn)行訓(xùn)練。這不是較好的工作流程,因?yàn)樵贑PU上做原型設(shè)計(jì)十分痛苦,但它可以是一個(gè)具有高性價(jià)比的替代方案。
結(jié)論
總的來(lái)說(shuō),在GPU選取上,我推薦以下三個(gè)策略:
1.堅(jiān)持使用GTX 1070或更好的GPU
2.購(gòu)買(mǎi)RTX GPU
3.使用某種GPU進(jìn)行原型設(shè)計(jì),然后在TPU或云GPU上進(jìn)行并行訓(xùn)練。
更多建議
較佳GPU:RTX 2070?
最差GPU:任何Tesla卡、任何Quadro卡、任何初創(chuàng)公司的卡; Titan RTX,Titan V,Titan XP
高性價(jià)比但價(jià)格昂貴:RTX 2070
高性價(jià)比且價(jià)格便宜:RTX 2060,GTX 1060(6GB)
有點(diǎn)小錢(qián):GTX 1060(6GB)
沒(méi)錢(qián):GTX 1050 Ti(4GB)或者:CPU(原型)+ AWS / TPU(訓(xùn)練);或者Colab。
參加Kaggle:RTX 2070。如果你沒(méi)有足夠的錢(qián),可以從eBay購(gòu)買(mǎi)GTX 1060(6GB)或GTX Titan(Pascal)進(jìn)行原型設(shè)計(jì),然后使用AWS進(jìn)行最終訓(xùn)練。使用fastai庫(kù)。
計(jì)算機(jī)視覺(jué)或機(jī)器翻譯研究員:GTX 2080 Ti(采用鼓風(fēng)機(jī)設(shè)計(jì))。如果你訓(xùn)練非常大的網(wǎng)絡(luò),請(qǐng)使用RTX Titans。
NLP研究員:16位的RTX 2080 Ti。
想認(rèn)真學(xué)習(xí)深度學(xué)習(xí):從RTX 2070開(kāi)始。在6-9個(gè)月后購(gòu)買(mǎi)更多RTX 2070。根據(jù)你接下來(lái)選擇的領(lǐng)域(創(chuàng)業(yè),Kaggle,研究,應(yīng)用深度學(xué)習(xí)),賣(mài)掉你的GPU,并在大約兩年后購(gòu)買(mǎi)更合適的東西。
只想玩一玩試深度學(xué)習(xí):GTX 1050 Ti(4或2GB)。這通常適合你的標(biāo)準(zhǔn)桌面,不需要新的PSU。如果裝得下的話,不要購(gòu)買(mǎi)新電腦!
相關(guān)報(bào)道:
http://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/
聲明:本文版權(quán)歸原作者所有,文章收集于網(wǎng)絡(luò),為傳播信息而發(fā),如有侵權(quán),請(qǐng)聯(lián)系小編及時(shí)處理,謝謝!
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4866.html
摘要:受到其他同行在上討論更好經(jīng)驗(yàn)的激勵(lì),我決定買(mǎi)一個(gè)專(zhuān)用的深度學(xué)習(xí)盒子放在家里。下面是我的選擇從選擇配件到基準(zhǔn)測(cè)試。即便是深度學(xué)習(xí)的較佳選擇,同樣也很重要。安裝大多數(shù)深度學(xué)習(xí)框架是首先基于系統(tǒng)開(kāi)發(fā),然后逐漸擴(kuò)展到支持其他操作系統(tǒng)。 在用了十年的 MacBook Airs 和云服務(wù)以后,我現(xiàn)在要搭建一個(gè)(筆記本)桌面了幾年時(shí)間里我都在用越來(lái)越薄的 MacBooks 來(lái)搭載一個(gè)瘦客戶端(thin c...
摘要:但是如果你和我是一樣的人,你想自己攢一臺(tái)奇快無(wú)比的深度學(xué)習(xí)的電腦??赡軐?duì)深度學(xué)習(xí)最重要的指標(biāo)就是顯卡的顯存大小。性能不錯(cuò),不過(guò)夠貴,都要美元以上,哪怕是舊一點(diǎn)的版本。電源我花了美元買(mǎi)了一個(gè)的電源。也可以安裝,這是一個(gè)不同的深度學(xué)習(xí)框架。 是的,你可以在一個(gè)39美元的樹(shù)莓派板子上運(yùn)行TensorFlow,你也可以在用一個(gè)裝配了GPU的亞馬遜EC2的節(jié)點(diǎn)上跑TensorFlow,價(jià)格是每小時(shí)1美...
摘要:導(dǎo)語(yǔ)本期訪談對(duì)象小猴機(jī)器人,清華人工智能專(zhuān)業(yè)博士在讀?;蛟S因?yàn)槌砷L(zhǎng)于廣袤的內(nèi)蒙,小猴身上帶著大山和草原一般的灑脫與樂(lè)觀,在他鐘愛(ài)的無(wú)人車(chē)上,印上了一個(gè)美好的我們的征途是星辰大海。技術(shù)人攻略除了規(guī)則挖掘,人工智能遇到的難題還 showImg(https://segmentfault.com/img/bVc1yA); 文:Gracia,攝影:周振邦 (本文為原創(chuàng)內(nèi)容,部分或全文轉(zhuǎn)載均需經(jīng)作...
摘要:沒(méi)有過(guò)年,年后在年后的年打敗了圍棋高手李世石,這下人工智能引起了全世界的關(guān)注。隨后的十多年,人工智能轉(zhuǎn)入第一次低潮,而也在他生日時(shí),因海事喪生,遺憾未能見(jiàn)到神經(jīng)網(wǎng)絡(luò)后期的復(fù)興。算力的進(jìn)步再次加速了人工智能的快速發(fā)展。 showImg(https://segmentfault.com/img/remote/1460000019409315); 小西:小迪小迪,我發(fā)現(xiàn)人工智能發(fā)展史上很多事...
閱讀 574·2023-04-26 02:58
閱讀 2312·2021-09-27 14:01
閱讀 3618·2021-09-22 15:57
閱讀 1181·2019-08-30 15:56
閱讀 1051·2019-08-30 15:53
閱讀 800·2019-08-30 15:52
閱讀 654·2019-08-26 14:01
閱讀 2172·2019-08-26 13:41