大模型推理為什么4090更合適？

UCloud小助手發(fā)布于2024-04-28 17:33 / 401673人閱讀

大模型的訓(xùn)練用4090是不合適的，但推理（inference/serving）用4090不能說合適，而是非常香！直接上圖！

通過Tensor FP32（TF32）的數(shù)據(jù)來(lái)看，H100性能是全方面碾壓4090，但是頂不住H100價(jià)格太貴，推理上使用性價(jià)比極低。但在和A100的PK中，4090與A100除了在顯存和通信上有差異，算力差異與顯存相比并不大，而4090是A100價(jià)格的1/10，因此如果用在模型推理場(chǎng)景下，4090性價(jià)比完勝?。ㄎ膊扛絽?shù)源文件）

從推理性能層面看，4090在推理方面的性能是比A100更強(qiáng)的，沒開混合精度的情況下，A100的FP32向量只有19.5T遠(yuǎn)低于4090的83T。同時(shí)在渲染場(chǎng)景Blender和OctaneBench基準(zhǔn)測(cè)試中，4090性能也遙遙領(lǐng)先。從推理性能層面看，4090在推理方面的性能是比A100更強(qiáng)的，沒開混合精度的情況下，A100的FP32向量只有19.5T遠(yuǎn)低于4090的83T。同時(shí)在渲染場(chǎng)景Blender和OctaneBench基準(zhǔn)測(cè)試中，4090性能也遙遙領(lǐng)先。

推理性能排行：

70B模型推理需要多少?gòu)?090？

首先我們需要計(jì)算一下推理需要多少計(jì)算量，根據(jù)公式：2 * 輸出 token 數(shù)量 * 參數(shù)數(shù)量 flops

總的存儲(chǔ)容量很好算，推理的時(shí)候最主要占內(nèi)存的就是參數(shù)、KV Cache 和當(dāng)前層的中間結(jié)果。當(dāng) batch size = 8 時(shí)，中間結(jié)果所需的大小是 batch size * token length * embedding size = 8 * 4096 * 8192 * 2B = 0.5 GB，相對(duì)來(lái)說是很小的。

70B 模型的參數(shù)是 140 GB，不管 A100/H100 還是 4090 都是單卡放不下的。那么 2 張 H100 夠嗎？看起來(lái) 160 GB 是夠了，但是剩下的 20 GB 如果用來(lái)放 KV Cache，要么把 batch size 壓縮一半，要么把 token 最大長(zhǎng)度壓縮一半，聽起來(lái)是不太明智。因此，至少需要 3 張 H100。

對(duì)于 4090，140 GB 參數(shù) + 40 GB KV Cache = 180 GB，每張卡 24 GB，8 張卡剛好可以放下。要知道H100的價(jià)格是4090的20倍左右。這個(gè)時(shí)候4090就非常香了！

如果是針對(duì)AI繪畫，4090和A100差距如何？

首先，軟件用的是StableDiffusion，模型使用的是SDXL，出圖尺寸是888x1280，迭代步數(shù)50。A100出一張圖花費(fèi)11.5秒，而4090則略快，只需11.4秒，兩者差異較小，但A100表現(xiàn)稍顯頹勢(shì)。

在繪制八張圖的情況下，A100耗時(shí)87秒，而4090僅用80秒，4090表現(xiàn)出色，領(lǐng)先A100約8%。

總體來(lái)說，雖然RTX 4090可能不適合超大規(guī)模的AI訓(xùn)練任務(wù)，它的強(qiáng)大推理能力使其在大模型的推理應(yīng)用中顯得更為合適。盡管在數(shù)據(jù)中心和專業(yè)級(jí)AI訓(xùn)練任務(wù)中，Tesla A100和H100提供了更高的專業(yè)性和適應(yīng)性，但考慮到成本和可接受的性能輸出，RTX 4090為研究人員和技術(shù)企業(yè)提供了一種高效且經(jīng)濟(jì)的解決方案。對(duì)于那些尋求在預(yù)算內(nèi)實(shí)現(xiàn)高效AI推理的用戶，RTX 4090提供了一個(gè)既實(shí)用又前瞻的選擇。

附高性能NVIDIA RTX 40 系列云服務(wù)器購(gòu)買：

http://systransis.cn/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo

附H100、A100、4090官網(wǎng)參數(shù)文檔：

4090: https://images.nvidia.com/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf

A100：https://images.nvidia.com/aem-dam/en-zz/Solutions/data-center/nvidia-ampere-architecture-whitepaper.pdf

H100：https://resources.nvidia.com/en