大模型的訓(xùn)練用4090是不合適的,但推理(inference/serving)用4090不能說合適,而是非常香!直接上圖!
通過Tensor FP32(TF32)的數(shù)據(jù)來(lái)看,H100性能是全方面碾壓4090,但是頂不住H100價(jià)格太貴,推理上使用性價(jià)比極低。但在和A100的PK中,4090與A100除了在顯存和通信上有差異,算力差異與顯存相比并不大,而4090是A100價(jià)格的1/10,因此如果用在模型推理場(chǎng)景下,4090性價(jià)比完勝?。ㄎ膊扛絽?shù)源文件)
從推理性能層面看,4090在推理方面的性能是比A100更強(qiáng)的,沒開混合精度的情況下,A100的FP32向量只有19.5T遠(yuǎn)低于4090的83T。同時(shí)在渲染場(chǎng)景Blender和OctaneBench基準(zhǔn)測(cè)試中,4090性能也遙遙領(lǐng)先。從推理性能層面看,4090在推理方面的性能是比A100更強(qiáng)的,沒開混合精度的情況下,A100的FP32向量只有19.5T遠(yuǎn)低于4090的83T。同時(shí)在渲染場(chǎng)景Blender和OctaneBench基準(zhǔn)測(cè)試中,4090性能也遙遙領(lǐng)先。
推理性能排行:
首先我們需要計(jì)算一下推理需要多少計(jì)算量,根據(jù)公式:2 * 輸出 token 數(shù)量 * 參數(shù)數(shù)量 flops
總的存儲(chǔ)容量很好算,推理的時(shí)候最主要占內(nèi)存的就是參數(shù)、KV Cache 和當(dāng)前層的中間結(jié)果。當(dāng) batch size = 8 時(shí),中間結(jié)果所需的大小是 batch size * token length * embedding size = 8 * 4096 * 8192 * 2B = 0.5 GB,相對(duì)來(lái)說是很小的。
70B 模型的參數(shù)是 140 GB,不管 A100/H100 還是 4090 都是單卡放不下的。那么 2 張 H100 夠嗎?看起來(lái) 160 GB 是夠了,但是剩下的 20 GB 如果用來(lái)放 KV Cache,要么把 batch size 壓縮一半,要么把 token 最大長(zhǎng)度壓縮一半,聽起來(lái)是不太明智。因此,至少需要 3 張 H100。
對(duì)于 4090,140 GB 參數(shù) + 40 GB KV Cache = 180 GB,每張卡 24 GB,8 張卡剛好可以放下。要知道H100的價(jià)格是4090的20倍左右。這個(gè)時(shí)候4090就非常香了!
首先,軟件用的是StableDiffusion,模型使用的是SDXL,出圖尺寸是888x1280,迭代步數(shù)50。A100出一張圖花費(fèi)11.5秒,而4090則略快,只需11.4秒,兩者差異較小,但A100表現(xiàn)稍顯頹勢(shì)。
在繪制八張圖的情況下,A100耗時(shí)87秒,而4090僅用80秒,4090表現(xiàn)出色,領(lǐng)先A100約8%。
總體來(lái)說,雖然RTX 4090可能不適合超大規(guī)模的AI訓(xùn)練任務(wù),它的強(qiáng)大推理能力使其在大模型的推理應(yīng)用中顯得更為合適。盡管在數(shù)據(jù)中心和專業(yè)級(jí)AI訓(xùn)練任務(wù)中,Tesla A100和H100提供了更高的專業(yè)性和適應(yīng)性,但考慮到成本和可接受的性能輸出,RTX 4090為研究人員和技術(shù)企業(yè)提供了一種高效且經(jīng)濟(jì)的解決方案。對(duì)于那些尋求在預(yù)算內(nèi)實(shí)現(xiàn)高效AI推理的用戶,RTX 4090提供了一個(gè)既實(shí)用又前瞻的選擇。
附高性能NVIDIA RTX 40 系列云服務(wù)器購(gòu)買:
http://systransis.cn/site/active/gpu.html?ytag=seo
https://www.compshare.cn/?ytag=seo
附H100、A100、4090官網(wǎng)參數(shù)文檔:
4090: https://images.nvidia.com/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf
H100:https://resources.nvidia.com/en
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/131081.html
圖示為GPU性能排行榜,我們可以看到所有GPU的原始相關(guān)性能圖表。同時(shí)根據(jù)訓(xùn)練、推理能力由高到低做了排名。我們可以看到,H100 GPU的8位性能與16位性能的優(yōu)化與其他GPU存在巨大差距。針對(duì)大模型訓(xùn)練來(lái)說,H100和A100有絕對(duì)的優(yōu)勢(shì)首先,從架構(gòu)角度來(lái)看,A100采用了NVIDIA的Ampere架構(gòu),而H100則是基于Hopper架構(gòu)。Ampere架構(gòu)以其高效的圖形處理性能和多任務(wù)處理能力而...
2023年12月28日 英偉達(dá)宣布正式發(fā)布GeForce RTX 4090D,對(duì)比于一年前上市的4090芯片,兩者的區(qū)別與差異在哪?而在當(dāng)前比較火熱的大模型推理、AI繪畫場(chǎng)景方面 兩者各自的表現(xiàn)又如何呢?規(guī)格與參數(shù)信息對(duì)比現(xiàn)在先來(lái)看看GeForce RTX 4090D到底與之前的GeForce RTX 4090顯卡有何區(qū)別。(左為4090 右為4090D)從簡(jiǎn)單的規(guī)格來(lái)看,GeForce RTX ...
隨著大型模型技術(shù)的持續(xù)發(fā)展,視頻生成技術(shù)正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術(shù),正在重新定義行業(yè)的未來(lái)格局。而近幾個(gè)月,國(guó)產(chǎn)的AI視頻生成模型也是層出不窮,像是快手可靈、字節(jié)即夢(mèng)、智譜清影、Vidu、PixVerse V2 等。就在近日,智譜AI秉承以先進(jìn)技術(shù),服務(wù)全球開發(fā)者的理念,宣布將與清影同源的視頻生成模型——CogVideoX開源,以期讓每一位開發(fā)者、每一家企...
Llama3 中文聊天項(xiàng)目綜合資源庫(kù),該文檔集合了與Lama3 模型相關(guān)的各種中文資料,包括微調(diào)版本、有趣的權(quán)重、訓(xùn)練、推理、評(píng)測(cè)和部署的教程視頻與文檔。1. 多版本支持與創(chuàng)新:該倉(cāng)庫(kù)提供了多個(gè)版本的Lama3 模型,包括基于不同技術(shù)和偏好的微調(diào)版本,如直接中文SFT版、Instruct偏好強(qiáng)化學(xué)習(xí)版、趣味版等。此外,還有Phi3模型中文資料倉(cāng)庫(kù)的鏈接,和性能超越了8b版本的Llama3。2. 部...
在深度學(xué)習(xí)和人工智能應(yīng)用,選最合的硬件對(duì)于模型訓(xùn)練和推任務(wù)關(guān)。在大模型訓(xùn)練,英偉達(dá)4090并不是最的選。訓(xùn)練任務(wù)通常要更大的顯存容量、更的內(nèi)存帶寬的計(jì)算能。這些求,英偉達(dá)的高性能顯卡系列,比如A100和H100,更適合處理大數(shù)據(jù)集和復(fù)雜模型。,在推理任務(wù),英偉達(dá)4090可能H100系列處理器。推理顯存和帶寬求相對(duì)較,而4090的計(jì)算能更的和效率。這在推理任務(wù),4090顯卡處理更復(fù)雜的模型,在性價(jià)比...
閱讀 177·2024-11-07 17:59
閱讀 225·2024-09-27 16:59
閱讀 357·2024-09-23 10:37
閱讀 402·2024-09-14 16:58
閱讀 266·2024-09-14 16:58
閱讀 370·2024-08-29 18:47
閱讀 602·2024-08-16 14:40
閱讀 322·2024-08-14 17:54