做深度學(xué)習(xí)這么多年還不會(huì)挑GPU？這兒有份選購(gòu)全攻略

JohnLui 發(fā)布于2019-04-25 18:32 / 1765人閱讀

摘要：深度學(xué)習(xí)是一個(gè)對(duì)算力要求很高的領(lǐng)域。這一早期優(yōu)勢(shì)與英偉達(dá)強(qiáng)大的社區(qū)支持相結(jié)合，迅速增加了社區(qū)的規(guī)模。對(duì)他們的深度學(xué)習(xí)軟件投入很少，因此不能指望英偉達(dá)和之間的軟件差距將在未來(lái)縮小。

深度學(xué)習(xí)是一個(gè)對(duì)算力要求很高的領(lǐng)域。GPU的選擇將從根本上決定你的深度學(xué)習(xí)體驗(yàn)。

一個(gè)好的GPU可以讓你快速獲得實(shí)踐經(jīng)驗(yàn)，而這些經(jīng)驗(yàn)是正是建立專(zhuān)業(yè)知識(shí)的關(guān)鍵。如果沒(méi)有這種快速的反饋，你會(huì)花費(fèi)過(guò)多時(shí)間，從錯(cuò)誤中吸取教訓(xùn)。

那么，現(xiàn)在問(wèn)題來(lái)了。

如果你想購(gòu)買(mǎi)新的GPU，應(yīng)該關(guān)注哪些指標(biāo)呢？GPU RAM，內(nèi)核，還是Tensor Core？

各種廠商五花八門(mén)。英偉達(dá)，英特爾，還是谷歌？我又應(yīng)該選擇哪家的產(chǎn)品？

本文將深入研究這些問(wèn)題，并將為你提供建議，幫助你做出適合的選擇。

本文結(jié)構(gòu)如下：

首先，我會(huì)討論擁有多個(gè)GPU的用處，然后討論所有相關(guān)的硬件選項(xiàng)，如英偉達(dá)和AMD GPU，Intel Xeon Phis，Google TPU和初創(chuàng)公司的硬件。然后我會(huì)討論哪些GPU規(guī)格指標(biāo)是深度學(xué)習(xí)性能的良好指標(biāo)。最后，我會(huì)總結(jié)GPU的選購(gòu)建議。

只想閱讀最終采購(gòu)建議的同學(xué)可以直接跳到文末。

多個(gè)GPU能讓我的訓(xùn)練更快嗎？

我的核心觀點(diǎn)是，卷積和循環(huán)網(wǎng)絡(luò)很容易并行化，特別是當(dāng)你只使用一臺(tái)計(jì)算機(jī)或4個(gè)GPU時(shí)。然而，包括Google的Transformer在內(nèi)的全連接網(wǎng)絡(luò)并不能簡(jiǎn)單并行，并且需要專(zhuān)門(mén)的算法才能很好地運(yùn)行。

圖1：主計(jì)算機(jī)中的設(shè)置：你可以看到三個(gè)GPU和一個(gè)InfiniBand網(wǎng)卡。這是一個(gè)很好的深度學(xué)習(xí)配置嗎？

像TensorFlow和PyTorch這樣的現(xiàn)代庫(kù)非常適合并行化循環(huán)和卷積網(wǎng)絡(luò)。以卷積為例，2/3/4 塊GPU的期望加速大約分別是1.9x / 2.8x / 3.5x。對(duì)于循環(huán)網(wǎng)絡(luò)，序列長(zhǎng)度是最重要的參數(shù)，在常見(jiàn)的NLP問(wèn)題中，對(duì)應(yīng)的加速比與卷積網(wǎng)絡(luò)相似或稍差。

然而，全連接網(wǎng)絡(luò)（包括Transformer）通常具有較差的數(shù)據(jù)并行性能，并且需要更高級(jí)的算法來(lái)加速網(wǎng)絡(luò)的這些部分。如果你在多個(gè)GPU上運(yùn)行Transformer，你應(yīng)該也嘗試在單個(gè)GPU上運(yùn)行，并比較查看是否真的有加速。

在不考慮并行性的情況下使用多個(gè)GPU

除了并行運(yùn)算，擁有多個(gè)GPU能帶來(lái)的更顯著幫助是，讓你可以在每個(gè)GPU上多帶帶運(yùn)行多個(gè)算法或?qū)嶒?yàn)。

高效的超參數(shù)搜索是多個(gè)GPU的最常見(jiàn)用途。雖然你沒(méi)有獲得加速，但你可以獲得有關(guān)不同超參數(shù)設(shè)置或不同網(wǎng)絡(luò)架構(gòu)的性能的更快信息。這對(duì)新手來(lái)說(shuō)也非常有用，因?yàn)槟憧梢钥焖佾@得訓(xùn)練不熟悉的深度學(xué)習(xí)架構(gòu)的見(jiàn)解和經(jīng)驗(yàn)。

以這種方式使用多個(gè)GPU通常比通過(guò)數(shù)據(jù)并行在多個(gè)GPU上運(yùn)行單個(gè)網(wǎng)絡(luò)更有用。購(gòu)買(mǎi)多個(gè)GPU時(shí)，請(qǐng)記住這一點(diǎn)：當(dāng)你購(gòu)買(mǎi)多個(gè)GPU時(shí)，用于提高并行性的指標(biāo)（如PCIe通道數(shù)量）并不重要。

另外，請(qǐng)注意，單個(gè)GPU應(yīng)該足以滿足幾乎所有任務(wù)的要求。單GPU的體驗(yàn)范圍與4個(gè) GPU的體驗(yàn)不會(huì)差太多。的區(qū)別是，你可以在給定時(shí)間內(nèi)使用多個(gè)GPU運(yùn)行更多實(shí)驗(yàn)。

你該如何選擇：英偉達(dá) vs AMD vs 英特爾 vs 谷歌 vs 亞馬遜 vs 微軟 vs 初創(chuàng)公司

英偉達(dá)：領(lǐng)導(dǎo)者

英偉達(dá)的標(biāo)準(zhǔn)庫(kù)使得在CUDA中建立第一個(gè)深度學(xué)習(xí)庫(kù)非常容易，而AMD的OpenCL沒(méi)有這樣強(qiáng)大的標(biāo)準(zhǔn)庫(kù)。這一早期優(yōu)勢(shì)與英偉達(dá)強(qiáng)大的社區(qū)支持相結(jié)合，迅速增加了CUDA社區(qū)的規(guī)模。這意味著只要你使用英偉達(dá) GPU，如果出現(xiàn)問(wèn)題，你將很容易找到支持；如果你自己編寫(xiě)CUDA，你會(huì)找到支持和建議；并且你會(huì)發(fā)現(xiàn)大多數(shù)深度學(xué)習(xí)庫(kù)都對(duì)英偉達(dá) GPU提供較佳支持。在過(guò)去的幾個(gè)月里，英偉達(dá)仍將更多的資源投入到軟件中。例如，Apex庫(kù)支持在PyTorch中實(shí)現(xiàn)穩(wěn)定的16位梯度，還包括融合快速優(yōu)化器，如FusedAdam?？偟膩?lái)說(shuō)，軟件是英偉達(dá) GPU非常強(qiáng)大的一步。

另一方面，英偉達(dá)現(xiàn)在有一項(xiàng)政策，即只允許Tesla GPU在數(shù)據(jù)中心使用CUDA，而不允許GTX或RTX卡。目前外界尚不清楚“數(shù)據(jù)中心”的嚴(yán)格定義，但這意味著，由于擔(dān)心法律問(wèn)題，組織和大學(xué)將被迫購(gòu)買(mǎi)價(jià)格昂貴且性價(jià)比低的Tesla GPU。然而，Tesla卡與GTX和RTX卡相比沒(méi)有真正的優(yōu)勢(shì)，成本卻高達(dá)10倍。

英偉達(dá)可以在沒(méi)有任何重大阻力的情況下做到這一點(diǎn)，正表明了他們壟斷的力量——他們可以隨心所欲地做，我們必須接受這些條款。如果你選擇了英偉達(dá) GPU在社區(qū)和支持方面的主要優(yōu)勢(shì)，你也需要同時(shí)接受隨時(shí)可能出現(xiàn)的各種限制。

AMD：功能強(qiáng)大但缺乏支持

HIP通過(guò)ROCm將英偉達(dá)和AMD GPU統(tǒng)一為一種通用編程語(yǔ)言，在編譯成GPU組件之前編譯成相應(yīng)的GPU語(yǔ)言。如果我們將所有GPU代碼都放在HIP中，這將是一個(gè)重要的里程碑，但這很困難，其中就包含了移植TensorFlow和PyTorch代碼庫(kù)。 TensorFlow和PyTorch對(duì)AMD GPU有一些支持，所有主要網(wǎng)絡(luò)都可以在AMD GPU上運(yùn)行，但如果你想開(kāi)發(fā)新網(wǎng)絡(luò)，可能會(huì)遺漏一些細(xì)節(jié)，這可能會(huì)阻止你實(shí)現(xiàn)你需要的東西。 ROCm社區(qū)也不是太大，因此很難直接解決問(wèn)題。 AMD對(duì)他們的深度學(xué)習(xí)軟件投入很少，因此不能指望英偉達(dá)和AMD之間的軟件差距將在未來(lái)縮小。

目前，AMD GPU的性能還可以。它們現(xiàn)在具有16位計(jì)算能力，這是一個(gè)重要的里程碑，但英偉達(dá) GPU的Tensor核心為T(mén)ransformer和卷積網(wǎng)絡(luò)提供了更高的計(jì)算性能（不過(guò)對(duì)于詞級(jí)循環(huán)網(wǎng)絡(luò)而言，沒(méi)有提高那么多）。

總的來(lái)說(shuō)，我認(rèn)為對(duì)于那些只希望GPU能夠順利運(yùn)行的普通用戶，我不太推薦AMD GPU。更有經(jīng)驗(yàn)的用戶應(yīng)該可以減少問(wèn)題，并且通過(guò)支持AMD GPU和ROCm / HIP開(kāi)發(fā)人員，他們有助于打擊英偉達(dá)的壟斷地位，因?yàn)檫@將使每個(gè)人長(zhǎng)期受益。如果你是GPU開(kāi)發(fā)人員并希望為GPU計(jì)算做出重要貢獻(xiàn)，那么AMD GPU可能是長(zhǎng)期發(fā)揮良好影響力的較佳方式。對(duì)于其他所有人來(lái)說(shuō)，英偉達(dá) GPU可能是更安全的選擇。

英特爾：努力追趕

以我的親身經(jīng)歷而言，我對(duì)英特爾Xeon Phis非常失望，我不認(rèn)為它們是英偉達(dá)或AMD顯卡的真正競(jìng)爭(zhēng)對(duì)手，因此我只簡(jiǎn)單描述一下：如果你決定使用Xeon Phi，你可能會(huì)遇到以下問(wèn)題：很差的技術(shù)支持，代碼運(yùn)行得比CPU還慢，編寫(xiě)優(yōu)化代碼困難，沒(méi)有完全支持C ++ 11特性，不支持某些重要的GPU設(shè)計(jì)模式，難以兼容依賴BLAS例程的其他庫(kù)（NumPy和SciPy）等等。

除了Xeon Phi之外，我非常期待英特爾的Nervana神經(jīng)網(wǎng)絡(luò)處理器（NNP），因?yàn)樗囊?guī)格對(duì)GPU開(kāi)發(fā)人員而言非常強(qiáng)大，并且它將允許新的算法，這可能重新定義神經(jīng)網(wǎng)絡(luò)的使用方式，但這一項(xiàng)目已經(jīng)無(wú)休止地延遲，有傳言稱(chēng)大部分研發(fā)都打了水漂。NNP計(jì)劃于2019年第三季度/第四季度開(kāi)始。如果你想等待那么長(zhǎng)時(shí)間，請(qǐng)記住，從AMD和英特爾自己的Xeon Phi可以看出，好的硬件并非一切?？赡苤钡?020年或2021年，NNP才有能力與GPU或TPU競(jìng)爭(zhēng)

谷歌：強(qiáng)大，廉價(jià)的按需處理

Google TPU已發(fā)展成為一種非常成熟的基于云的產(chǎn)品，具有成本效益。理解TPU的最簡(jiǎn)單方法是將其視為打包在一起的多個(gè)專(zhuān)用GPU——而且只為了一個(gè)目的：進(jìn)行快速矩陣乘法。如果我們看一下Tensor-Core-enabled V100與TPU v2的性能指標(biāo)，我們發(fā)現(xiàn)兩個(gè)系統(tǒng)在運(yùn)行ResNet50模型時(shí)的性能幾乎相同。

但是，Google TPU更具成本效益。由于TPU具有復(fù)雜的并行化基礎(chǔ)架構(gòu)，如果你使用多于1個(gè)云TPU（相當(dāng)于4個(gè)GPU），TPU將比GPU具有更大的速度優(yōu)勢(shì)。

盡管仍在試驗(yàn)中，但PyTorch現(xiàn)在也支持TPU了，這將有助于加強(qiáng)TPU社區(qū)和生態(tài)系統(tǒng)。

TPU仍然存在一些各種各樣的問(wèn)題，例如，2018年2月的一份報(bào)告稱(chēng)，當(dāng)使用LSTM時(shí)TPUv2沒(méi)有收斂。我至今沒(méi)有找到該問(wèn)題已經(jīng)解決的報(bào)道。

另一方面，在TPU上訓(xùn)練大型Transformer取得了巨大成功。GPT-2，BERT和機(jī)器翻譯模型可以在TPU上非常有效地進(jìn)行訓(xùn)練。根據(jù)我的估計(jì)，TPU比GPU快約56％，并且由于它們與云GPU相比價(jià)格較低，因此它們是大型Transformer項(xiàng)目的絕佳選擇。

然而，在TPU上訓(xùn)練大型模型的一個(gè)問(wèn)題可能是累積成本。TPU具有高性能，最適合在訓(xùn)練階段使用。在原型設(shè)計(jì)階段，你應(yīng)該關(guān)閉云端來(lái)降低成本。因此，較佳選擇是，在你的個(gè)人GPU上進(jìn)行原型設(shè)計(jì)，然后在TPU訓(xùn)練最終模型。

總而言之，目前TPU似乎最適合用于訓(xùn)練卷積網(wǎng)絡(luò)或大型Transformer，并且應(yīng)該結(jié)合其他計(jì)算資源共同使用，而不是作為主要的深度學(xué)習(xí)資源。

亞馬遜AWS和微軟Azure：可靠但昂貴

來(lái)自Amazon AWS和微軟Azure的GPU實(shí)例非常具有吸引力，因?yàn)槟憧梢愿鶕?jù)需要輕松擴(kuò)展和縮小實(shí)例。這對(duì)于趕paper或者更大的一次性項(xiàng)目非常有用。然而，與TPU類(lèi)似，成本會(huì)隨實(shí)例數(shù)增長(zhǎng)而迅速累加。目前，GPU云實(shí)例太昂貴而無(wú)法多帶帶使用，我建議在云中啟動(dòng)最終訓(xùn)練工作之前，使用一些專(zhuān)用的廉價(jià)GPU進(jìn)行原型設(shè)計(jì)。

初創(chuàng)公司：具有革命性的硬件概念但缺乏軟件

有一系列初創(chuàng)公司旨在生產(chǎn)下一代深度學(xué)習(xí)硬件。這些公司通常擁有出色的理論設(shè)計(jì)，然后被谷歌、英特爾或其他公司收購(gòu)，以獲得完成設(shè)計(jì)和生產(chǎn)芯片所需的資金。下一代芯片的開(kāi)發(fā)成本十分昂貴（約10億美元）。一旦這個(gè)階段完成，軟件就成了主要問(wèn)題。目前，還沒(méi)有初創(chuàng)公司能夠生產(chǎn)出適用于當(dāng)前深度學(xué)習(xí)硬件的軟件。需要開(kāi)發(fā)一個(gè)完整的軟件套件才能具有競(jìng)爭(zhēng)力，這一點(diǎn)從AMD與英偉達(dá)的例子中可以清楚地看出：AMD擁有出色的硬件，但只有90％的軟件——這還不足以與英偉達(dá)競(jìng)爭(zhēng)。

目前，沒(méi)有任何公司能夠完成所有的硬件和軟件步驟。英特爾NNP可能是最接近的，但目前來(lái)看，我們不能指望在2020年或2021年之前出現(xiàn)有競(jìng)爭(zhēng)力的產(chǎn)品。所以目前我們需要繼續(xù)使用GPU和TPU。

因此，你就先別指望初創(chuàng)公司的新硬件了。

一個(gè)優(yōu)秀的GPU應(yīng)該擁有什么性能？

訓(xùn)練深度學(xué)習(xí)模型時(shí)，GPU性能中最重要的特性到底是什么？是CUDA Core嗎？還是時(shí)鐘頻率？或是RAM大??？

GPU的選擇實(shí)在令人困惑：16位計(jì)算能力，Tensor Core，沒(méi)有Tensor Core的16位GPU，多代GPU仍然可行（Turning，Volta，Maxwell）。

所幸我們?nèi)匀挥幸恍┛煽康男阅苤笜?biāo)，我們可以使用這些指標(biāo)作為經(jīng)驗(yàn)法則。這里有一些針對(duì)不同深度學(xué)習(xí)架構(gòu)的優(yōu)先級(jí)指南：

卷積網(wǎng)絡(luò)和Transformer：Tensor Core> FLOP>存儲(chǔ)器帶寬> 16位計(jì)算能力

循環(huán)網(wǎng)絡(luò)：存儲(chǔ)器帶寬> 16位計(jì)算能力>Tensor Core> FLOP

解釋如下：如果我想使用卷積網(wǎng)絡(luò)，我應(yīng)該首先優(yōu)先考慮具有Tensor Core的GPU，然后是高FLOP指數(shù)，然后是高內(nèi)存帶寬，然后是具有16位計(jì)算能力的GPU 。在確定優(yōu)先級(jí)時(shí)，你也需要根據(jù)模型大小選擇具有足夠內(nèi)存的GPU。

為什么優(yōu)先級(jí)是這樣的呢？

GPU可以快速實(shí)現(xiàn)兩個(gè)最重要的張量操作：矩陣乘法和卷積。

考慮矩陣乘法A * B = C。將A，B的存儲(chǔ)器復(fù)制到芯片上比計(jì)算A * B更昂貴。這意味著，如果你想使用LSTM和其他經(jīng)常進(jìn)行大量小矩陣乘法的循環(huán)網(wǎng)絡(luò)，則內(nèi)存帶寬是GPU最重要的特性。矩陣乘法越小，內(nèi)存帶寬就越重要。

相反，卷積受計(jì)算速度的約束。因此，GPU上的TFLOP是ResNets和其他卷積架構(gòu)性能的較佳指標(biāo)。Tensor Core可以明顯增加FLOP。

圖2：GPU和TPU的標(biāo)準(zhǔn)化性能數(shù)據(jù)。越高越好。RTX卡假定16位計(jì)算。RNN編號(hào)指的是長(zhǎng)度小于100的短序列的biLSTM性能。使用PyTorch 1.0.1和CUDA 10完成基準(zhǔn)測(cè)試。

性價(jià)比分析

GPU的性價(jià)比可能是選擇GPU的最重要標(biāo)準(zhǔn)。本文的性能分析如下：

1.對(duì)于Transformer，我對(duì)Transformer-XL和BERT進(jìn)行了基準(zhǔn)測(cè)試。

2.對(duì)于詞級(jí)和字符級(jí)RNN，我對(duì)較先進(jìn)的biLSTM模型進(jìn)行了基準(zhǔn)測(cè)試。

3.（1）和（2）中的基準(zhǔn)測(cè)試是針對(duì)Titan Xp，Titan RTX和RTX 2080 Ti進(jìn)行的。對(duì)于其他卡，我線性地縮放了性能差異。

4.我使用現(xiàn)有的CNN基準(zhǔn)。

5.我使用亞馬遜和eBay的平均成本作為GPU的參考成本。

圖3：卷積網(wǎng)絡(luò)（CNN），循環(huán)網(wǎng)絡(luò)（RNN）和Transformer的標(biāo)準(zhǔn)化性能/成本。越高越好。RTX 2060的成本效率是Tesla V100的5倍以上。RNN編號(hào)指的是長(zhǎng)度小于100的短序列的biLSTM性能。使用PyTorch 1.0.1和CUDA 10完成基準(zhǔn)測(cè)試。

從這些數(shù)據(jù)中，我們看到RTX 2060比RTX 2070，RTX 2080或RTX 2080 Ti更具性價(jià)比。為什么會(huì)這樣呢？使用Tensor Core進(jìn)行16位計(jì)算的能力遠(yuǎn)遠(yuǎn)超過(guò)擁有更多Tensor Core核心的更大的硬件。使用RTX 2060，你可以以較低的價(jià)格獲得這些功能。

然而，這種分析存在一些應(yīng)該考慮的偏差：

1.這種分析強(qiáng)烈傾向于較小的顯卡。較小而經(jīng)濟(jì)高效的GPU可能沒(méi)有足夠的內(nèi)存來(lái)運(yùn)行你真正感興趣的模型！

2.GTX 10xx卡標(biāo)價(jià)過(guò)高：目前，由于游戲玩家不喜歡RTX卡，GTX 10XX卡似乎加價(jià)格被哄抬過(guò)高。

3.單GPU偏置：一臺(tái)具有4個(gè)低成本卡（4x RTX 2080 Ti）的計(jì)算機(jī)比具有較高成本/效率卡（8x RTX 2060）的2臺(tái)計(jì)算機(jī)更具性價(jià)比。

警告：多GPU RTX發(fā)熱問(wèn)題

如果你使用多個(gè)彼此相鄰的GPU，那么RTX 2080 Ti和其他具有標(biāo)準(zhǔn)雙風(fēng)扇的RTX GPU就存在問(wèn)題了——尤其是一臺(tái)計(jì)算機(jī)中的多個(gè)RTX 2080 Ti。多個(gè)RTX 2080和RTX 2070也會(huì)受到影響。

RTX卡上的風(fēng)扇是由英偉達(dá)開(kāi)發(fā)的一種新設(shè)計(jì)，用于改善運(yùn)行單GPU的游戲玩家的體驗(yàn)（靜音，低發(fā)熱）。但是，如果你使用具有此開(kāi)放式雙風(fēng)扇設(shè)計(jì)的多個(gè)GPU，那么這種設(shè)計(jì)非常糟糕。如果你想使用多個(gè)彼此相鄰的RTX卡（直接在下一個(gè)PCIe插槽中），那么你應(yīng)該獲得具有“鼓風(fēng)式”單風(fēng)扇設(shè)計(jì)的版本。對(duì)于RTX 2080 Ti卡尤其如此。華碩和PNY目前市場(chǎng)上有RTX 2080 Ti型號(hào)，帶有鼓風(fēng)式風(fēng)扇。如果你使用兩個(gè)RTX 2070，你可以使用任何風(fēng)扇，但是，我仍愿意選擇使用一個(gè)鼓風(fēng)式風(fēng)扇，以便在彼此旁邊運(yùn)行2個(gè)以上的RTX 2070。

所需內(nèi)存大小和16位訓(xùn)練

GPU上的內(nèi)存對(duì)于某些應(yīng)用程序（如計(jì)算機(jī)視覺(jué)，機(jī)器翻譯和某些其他NLP應(yīng)用程序）至關(guān)重要，你可能認(rèn)為RTX 2070具有性價(jià)比，但其內(nèi)存太小，只有8 GB。但請(qǐng)注意，通過(guò)16位訓(xùn)練，你幾乎可以擁有16 GB的內(nèi)存。任何標(biāo)準(zhǔn)型號(hào)都可以被輕松放入RTX 2070。

RTX 2080和RTX 2080 Ti也是如此。但請(qǐng)注意，在大多數(shù)軟件框架中，16位運(yùn)算并非默認(rèn)選項(xiàng)，因?yàn)槟承┛蚣芤?2位存儲(chǔ)權(quán)重以執(zhí)行更較精確的梯度下降。一個(gè)好的經(jīng)驗(yàn)法則是，使用16位計(jì)算往往可以節(jié)省50％的內(nèi)存。因此，16位8GB內(nèi)存的大小與12 GB 32位內(nèi)存大致相當(dāng)。

GPU推薦

目前，我的主要建議是購(gòu)買(mǎi)RTX 2070 GPU并使用16位訓(xùn)練。我永遠(yuǎn)不會(huì)建議購(gòu)買(mǎi)XP Titan，Titan V，任何Quadro顯卡或任何Founders Edition GPU。但是，有一些特定的GPU也有它們的用武之處：

1.如果要額外內(nèi)存的話，我建議使用RTX 2080 Ti。如果你真的需要大量的內(nèi)存，RTX Titan是較好的選擇——但要確保你真的需要那么多內(nèi)存！

2.如果想要額外的性能，我建議使用RTX 2080 Ti。

3.如果你缺錢(qián)，我會(huì)推薦eBay上的任何便宜的GTX 10XX卡（取決于你需要多少內(nèi)存）或RTX 2060。如果太貴，可以看看Colab。

https://medium.com/deep-learning-turkey/google-colab-free-gpu-tutorial-e113627b9f5d）

4.如果你只想入門(mén)深度學(xué)習(xí)，GTX 1060（6GB）是一個(gè)很好的選擇。

5.如果你已經(jīng)擁有GTX 1070或更高版本，請(qǐng)?jiān)俚鹊?。除非你使用大型Transformer，否則升級(jí)是不值得的。

6.如果你想快速學(xué)習(xí)深度學(xué)習(xí)，建議使用多個(gè)GTX 1060（6GB）。

云端深度學(xué)習(xí)

AWS / Azure上的GPU實(shí)例和Google Cloud中的TPU都是深度學(xué)習(xí)的可行選擇。雖然TPU稍微便宜一點(diǎn)，但它缺乏云GPU的多功能性和靈活性。

TPU可能是訓(xùn)練物體識(shí)別或Transformer模型的推薦武器。對(duì)于其他工作負(fù)載，云GPU是更安全的選擇——云實(shí)例的好處是你可以隨時(shí)在GPU和TPU之間切換，甚至可以同時(shí)使用兩者。

但是，請(qǐng)注意這樣做的代價(jià)：如果你一直使用AWS / Azure完成工作，那么你將無(wú)法學(xué)到如何在個(gè)人GPU上工作的技能，并且你也無(wú)法獲得使用TPU的技能。如果你一直使用個(gè)人GPU，則無(wú)法學(xué)會(huì)通過(guò)云擴(kuò)展到更多GPU / TPU的技能。

如果你使用TPU，當(dāng)你需要完整功能時(shí)，你可能就只能使用TensorFlow了。學(xué)習(xí)云GPU / TPU工作流的代價(jià)是很高，如果你正在面臨TPU、云GPU和個(gè)人GPU的選擇，你應(yīng)該意識(shí)到這個(gè)代價(jià)。

另一個(gè)問(wèn)題是，何時(shí)使用云服務(wù)？如果你試圖學(xué)習(xí)深度學(xué)習(xí)，或者你需要搭建原型，那么個(gè)人GPU可能是較好的選擇，因?yàn)樵茖?shí)例可能很昂貴。

但是，一旦你找到了良好的深度網(wǎng)絡(luò)配置，并且你只想使用數(shù)據(jù)并行性訓(xùn)練模型，那么使用云實(shí)例是一種可靠的方法。小型GPU足以進(jìn)行原型設(shè)計(jì)，而人們可以依靠云計(jì)算的強(qiáng)大功能來(lái)擴(kuò)展到更大的實(shí)驗(yàn)。

如果你的資金不足，云計(jì)算實(shí)例也可能是一個(gè)很好的解決方案：在CPU上進(jìn)行原型設(shè)計(jì)，然后在GPU / TPU實(shí)例上實(shí)驗(yàn)，以便快速進(jìn)行訓(xùn)練。這不是較好的工作流程，因?yàn)樵贑PU上做原型設(shè)計(jì)十分痛苦，但它可以是一個(gè)具有高性價(jià)比的替代方案。

結(jié)論

總的來(lái)說(shuō)，在GPU選取上，我推薦以下三個(gè)策略：

1.堅(jiān)持使用GTX 1070或更好的GPU

2.購(gòu)買(mǎi)RTX GPU

3.使用某種GPU進(jìn)行原型設(shè)計(jì)，然后在TPU或云GPU上進(jìn)行并行訓(xùn)練。

更多建議

較佳GPU：RTX 2070?

最差GPU：任何Tesla卡、任何Quadro卡、任何初創(chuàng)公司的卡; Titan RTX，Titan V，Titan XP

高性價(jià)比但價(jià)格昂貴：RTX 2070

高性價(jià)比且價(jià)格便宜：RTX 2060，GTX 1060（6GB）

有點(diǎn)小錢(qián)：GTX 1060（6GB）

沒(méi)錢(qián)：GTX 1050 Ti（4GB）或者：CPU（原型）+ AWS / TPU（訓(xùn)練）；或者Colab。

參加Kaggle：RTX 2070。如果你沒(méi)有足夠的錢(qián)，可以從eBay購(gòu)買(mǎi)GTX 1060（6GB）或GTX Titan（Pascal）進(jìn)行原型設(shè)計(jì)，然后使用AWS進(jìn)行最終訓(xùn)練。使用fastai庫(kù)。

計(jì)算機(jī)視覺(jué)或機(jī)器翻譯研究員：GTX 2080 Ti（采用鼓風(fēng)機(jī)設(shè)計(jì)）。如果你訓(xùn)練非常大的網(wǎng)絡(luò)，請(qǐng)使用RTX Titans。

NLP研究員：16位的RTX 2080 Ti。

想認(rèn)真學(xué)習(xí)深度學(xué)習(xí)：從RTX 2070開(kāi)始。在6-9個(gè)月后購(gòu)買(mǎi)更多RTX 2070。根據(jù)你接下來(lái)選擇的領(lǐng)域（創(chuàng)業(yè)，Kaggle，研究，應(yīng)用深度學(xué)習(xí)），賣(mài)掉你的GPU，并在大約兩年后購(gòu)買(mǎi)更合適的東西。

只想玩一玩試深度學(xué)習(xí)：GTX 1050 Ti（4或2GB）。這通常適合你的標(biāo)準(zhǔn)桌面，不需要新的PSU。如果裝得下的話，不要購(gòu)買(mǎi)新電腦！

相關(guān)報(bào)道：

http://timdettmers.com/2019/04/03/which-gpu-for-deep-learning/

聲明：本文版權(quán)歸原作者所有，文章收集于網(wǎng)絡(luò)，為傳播信息而發(fā)，如有侵權(quán)，請(qǐng)聯(lián)系小編及時(shí)處理，謝謝！

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

GPU云服務(wù)器云服務(wù)器這么多年深度學(xué)習(xí)為什么這么火為什么深度學(xué)習(xí)這么火深度學(xué)習(xí)為什么這么強(qiáng)

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4866.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

JohnLui

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

框架tensorflow

閱讀 574·2023-04-26 02:58
老蔣在用的堅(jiān)果云盤(pán)適合私有文檔和文件管理備份支持跨平臺(tái)

閱讀 2312·2021-09-27 14:01
網(wǎng)上如何買(mǎi)主機(jī)-電腦主機(jī)在網(wǎng)上買(mǎi)好不好？

閱讀 3618·2021-09-22 15:57
CSS html大雜燴

閱讀 1181·2019-08-30 15:56
Codepen 每日精選（2018-4-15）

閱讀 1051·2019-08-30 15:53
關(guān)于《JavaScript半知半解》和《Web開(kāi)發(fā)實(shí)戰(zhàn)》的電子版說(shuō)明

閱讀 800·2019-08-30 15:52
Babel 7 轉(zhuǎn)碼的正確姿勢(shì)

閱讀 654·2019-08-26 14:01
每日 30 秒 ? 該不該優(yōu)雅

閱讀 2172·2019-08-26 13:41

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

做深度學(xué)習(xí)這么多年還不會(huì)挑GPU？這兒有份選購(gòu)全攻略

相關(guān)文章

**從硬件配置、軟件安裝到基準(zhǔn)測(cè)試，1700美元深度學(xué)習(xí)機(jī)器構(gòu)建指南**

**用不到1000美元攢一臺(tái)深度學(xué)習(xí)用的超快的電腦**

技術(shù)人攻略訪談三十五|小猴機(jī)器人：征途路上，星辰大海

你必須得知道的人工智能領(lǐng)域的大師與大事

發(fā)表評(píng)論

0條評(píng)論

JohnLui

男|高級(jí)講師

TA的文章

框架tensorflow

老蔣在用的堅(jiān)果云盤(pán)適合私有文檔和文件管理備份支持跨平臺(tái)

網(wǎng)上如何買(mǎi)主機(jī)-電腦主機(jī)在網(wǎng)上買(mǎi)好不好？

CSS html大雜燴

Codepen 每日精選（2018-4-15）

關(guān)于《JavaScript半知半解》和《Web開(kāi)發(fā)實(shí)戰(zhàn)》的電子版說(shuō)明

Babel 7 轉(zhuǎn)碼的正確姿勢(shì)

每日 30 秒 ? 該不該優(yōu)雅

最新活動(dòng)

資訊專(zhuān)欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

做深度學(xué)習(xí)這么多年還不會(huì)挑GPU？這兒有份選購(gòu)全攻略

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

做深度學(xué)習(xí)這么多年還不會(huì)挑GPU？這兒有份選購(gòu)全攻略