前言
近年來,大語言模型(Large Models, LLMs)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,得益于其在各種語言生成任務(wù)上的出色表現(xiàn),大語言模型推動了各種人工智能應(yīng)用(例如ChatGPT、Copilot等)的發(fā)展。然而,大模型的落地應(yīng)用受到其較大的推理開銷的限制,對部署資源、用戶體驗、經(jīng)濟成本都帶來了巨大挑戰(zhàn)。
大模型壓縮,即將大模型“瘦身”后塞進資源受限的場景,以減少模型存儲、訪存和計算開銷。在盡量不損失模型性能的前提下,提高大模型推理吞吐速度,使大模型在物聯(lián)網(wǎng)邊緣設(shè)備、嵌入式機器人、離線移動應(yīng)用等邊、端場景中保持優(yōu)秀的推理性能和功耗表現(xiàn)。
就在最近,來自清華大學(xué)電子工程系、無問芯穹和上海交通大學(xué)的研究團隊展開了一次量化方案的“大摸底”,在《Evaluating Quantized Large Language Models 》(Qllm-Eval)這項工作中評估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務(wù)上的性能,本篇工作已被ICML'24接收。Qllm-Eval列舉出很多大模型落地環(huán)節(jié)應(yīng)當(dāng)關(guān)注的模型能力,對產(chǎn)業(yè)中的模型量化工作實踐,比如如何選取量化方法、針對哪些層或組件進行優(yōu)化等問題具有指導(dǎo)意義,下圖是羅列的一些重要知識點。
訓(xùn)練后量化(Post-Training Quantization,PTQ)
大模型推理過程包括兩個階段:Prefill階段和Decoding階段:
Prefill階段的主要算子為矩陣-矩陣乘(GEMM),其推理速度受限于計算速度。
Decoding階段的主要算子為矩陣-向量乘(GEMV),其推理速度主要受限于訪存速度。
當(dāng)處理涉及長文本或大批量大小的任務(wù)時,KV Cache的存儲開銷會超過權(quán)重的存儲開銷。
訓(xùn)練后量化(Post-Training Quantization,PTQ)是大模型壓縮的常用技術(shù),其核心原理是將大模型的權(quán)重、激活值、KV Cache使用低精度格式表示,從而降低大模型在存儲和計算上的開銷。
在深度學(xué)習(xí)模型中,權(quán)重(weights)、激活值(activations)和鍵值緩存(KV Cache)等數(shù)值通常以32位或16位的浮點數(shù)(floats)來表示,這些浮點數(shù)可以有非常精確的數(shù)值,但同時也意味著模型會占用較大的存儲空間,并且需要比較多的計算資源來處理。
如果將浮點數(shù)從16位轉(zhuǎn)換成8位或者更低,好處是模型的大小會顯著減少,因為每個參數(shù)只需要不到50%的存儲空間,同時,使用整數(shù)進行計算通常比浮點數(shù)更快。
不同量化方式給大模型帶來的影響
但量化壓縮通常是有損的,不同量化方式的設(shè)計會對模型性能帶來不同的影響。為了探究不同量化方式對不同模型究竟會產(chǎn)生什么樣的影響,并幫助特定模型選擇更適合的量化方案,來自清華大學(xué)電子工程系、無問芯穹和上海交通大學(xué)的研究團隊展開了一次量化方案的“大摸底”,在《Evaluating Quantized Large Language Models 》(Qllm-Eval)這項工作中評估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務(wù)上的性能。
Qllm-Eval評測的量化張量類型包括權(quán)重(W)、權(quán)重-激活(WA)、KV Cache(KV),通過評估 PTQ 對 11 個系列模型(包括 OPT、LLaMA2、Falcon、Bloomz、Mistral、ChatGLM、Vicuna、LongChat、StableLM、Gemma 和 Mamba)的權(quán)重、激活和 KV 緩存的影響,對這些因素進行了全面評估,覆蓋了從 125M 到 180B的參數(shù)范圍。另外還評估了最先進的 (SOTA) 量化方法,以驗證其適用性。同時在大量實驗的基礎(chǔ)上,系統(tǒng)總結(jié)了量化的效果,提出了應(yīng)用量化技術(shù)的建議,并指出了大模型量化工作未來的發(fā)展方向。
大模型推理效率瓶頸分析
目前主流的大語言模型都是基于Transformer架構(gòu)進行設(shè)計。通常來說,一個完整的模型架構(gòu)由多個相同結(jié)構(gòu)的Transformer塊組成,每個Transformer塊則包含多頭自注意力(Multi-Head Self-Attention, MHSA)模塊、前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Network, FFN)和層歸一化(Layer Normalization,LN)操作。
大語言模型通常自回歸(Auto-regressive)的方式生成輸出序列,即模型逐個詞塊生成,且生成每個詞塊時需要將前序的所有詞塊(包括輸入詞塊和前面已生成的詞塊)全部作為模型的輸入。因此,隨著輸出序列的增長,推理過程的開銷顯著增大。為了解決該問題,KV緩存技術(shù)被提出,該技術(shù)通過存儲和復(fù)用前序詞塊在計算注意力機制時產(chǎn)生的Key和Value向量,減少大量計算上的冗余,用一定的存儲開銷換取了顯著的加速效果。基于KV緩存技術(shù),通??梢詫⒋笳Z言模型的推理過程劃分為兩個階段(分別如下左圖和右圖所示):
左:預(yù)填充(Prefilling)階段:大語言模型計算并存儲輸入序列中詞塊的Key和Value向量,并生成第一個輸出詞塊。
右:解碼(Decoding)階段:大語言模型利用KV緩存技術(shù)逐個生成輸出詞塊,并在每步生成后存儲新詞塊的Key和Value向量。
數(shù)據(jù)層優(yōu)化技術(shù)
數(shù)據(jù)層優(yōu)化技術(shù)可以劃分為兩大類:輸入壓縮(Input Compression)和輸出規(guī)劃(Output Organization)。
輸入壓縮技術(shù)
在實際利用大語言模型做回答時,通常會在輸入提示詞中加入一些輔助內(nèi)容來增強模型的回答質(zhì)量,例如,上下文學(xué)習(xí)技術(shù)(In-Context Learning,ICL)提出在輸入中加入多個相關(guān)的問答例子來教模型如何作答。然而,這些技術(shù)不可避免地會增長輸入詞提示的長度,導(dǎo)致模型推理的開銷增大。為了解決該問題,輸入壓縮技術(shù)通過直接減小輸入的長度來優(yōu)化模型的推理效率。
本綜述將該類技術(shù)進一步劃分為四個小類,分別為:
提示詞剪枝(Prompt Pruning):通常根據(jù)設(shè)計好的重要度評估指標(biāo)刪除輸入提示詞中不重要的詞塊、句子或文段,對被壓縮的輸入提示詞執(zhí)行在線壓縮。
提示詞總結(jié)(Prompt Summary):通過對輸入提示詞做文本總結(jié)任務(wù),在保證其語義信息相同地情況下縮短輸入的長度。該壓縮過程通常也是在線執(zhí)行的。
基于軟提示詞的壓縮(Soft Prompt-based Compression):通過微調(diào)訓(xùn)練的方式得到一個長度較短的軟提示詞,代替原先的輸入提示詞(在線執(zhí)行)或其中固定的一部分內(nèi)容(離線執(zhí)行)。其中,軟提示詞指連續(xù)的、可學(xué)習(xí)的詞塊序列,可以通過訓(xùn)練的方式學(xué)習(xí)得到。
檢索增強生成(Retrieval-Augmented Generation):通過檢索和輸入相關(guān)的輔助內(nèi)容,并只將這些相關(guān)的內(nèi)容加入到輸入提示詞中,來降低原本的輸入長度(相比于加入所有輔助內(nèi)容)。
輸出規(guī)劃技術(shù)
傳統(tǒng)的生成解碼方式是完全串行的,輸出規(guī)劃技術(shù)通過規(guī)劃輸出內(nèi)容,并行生成某些部分的的輸出來降低端到端的推理延時。以該領(lǐng)域最早的工作“思維骨架”(Skeleton-of-Thought,以下簡稱SoT)為例,SoT技術(shù)的核心思想是讓大語言模型自行規(guī)劃輸出的并行結(jié)構(gòu),并基于該結(jié)構(gòu)進行并行解碼,提升硬件利用率,減少端到端生成延時。
具體來說,如下圖所示,SoT將大語言模型的生成分為兩個階段:在提綱階段,SoT通過設(shè)計的提示詞讓大語言模型輸出答案的大綱;在分點擴展階段,SoT讓大語言模型基于大綱中的每一個分點并行做擴展,最后將所有分點擴展的答案合并起來。SoT技術(shù)讓包含LLaMA-2、Vicuna模型在內(nèi)的9種主流大語言模型的生成過程加速1.9倍以上,最高可達(dá)2.39倍。在SoT技術(shù)發(fā)布后,一些研究工作通過微調(diào)大語言模型、前后端協(xié)同優(yōu)化等方式優(yōu)化輸出規(guī)劃技術(shù),達(dá)到了更好的加速比和回答質(zhì)量之間的權(quán)衡點。
未來方向
本文進一步總結(jié)了未來的四個關(guān)鍵應(yīng)用場景,并討論了高效性研究在這些場景中的重要性:
智能體和多模型框架。在最近的研究中,大語言模型智能體和多模型協(xié)同框架受到了許多關(guān)注,這類技術(shù)可以提升大語言模型的應(yīng)用能力,使得模型能更好地服務(wù)于人類。然而模型的數(shù)量增多,以及輸入到模型中的指令變長,都會使得智能體或框架系統(tǒng)的推理效率變低。因此需要面向這些框架和場景進行大模型的推理效率優(yōu)化。
長文本場景。隨著輸入模型文本變得越來越長,大語言模型的效率優(yōu)化需求變得愈發(fā)提升。目前在數(shù)據(jù)層、模型層和系統(tǒng)層均有相關(guān)的技術(shù)來優(yōu)化長文本場景下大語言模型的推理效率,其中設(shè)計Transformer的替代新架構(gòu)受到了許多關(guān)注,然而這類架構(gòu)還未被充分探索,其是否能匹敵傳統(tǒng)的Transformer模型仍未清楚。
邊緣端部署。最近,許多研究工作開始關(guān)注于將大語言模型部署到邊緣設(shè)備上,例如移動手機。一類工作致力于設(shè)計將大模型變小,通過直接訓(xùn)練小模型或模型壓縮等途徑達(dá)到該目的;另一類工作聚焦于系統(tǒng)層的優(yōu)化,通過算子融合、內(nèi)存管理等技術(shù),直接將70億參數(shù)規(guī)模的大模型成功部署到移動手機上。
安全-效率協(xié)同優(yōu)化。除了任務(wù)精度和推理效率外,大語言模型的安全性也是一個需要被考量的指標(biāo)。當(dāng)前的高效性研究均未考慮優(yōu)化技術(shù)對模型安全性的影響。若這些優(yōu)化技術(shù)對模型的安全性產(chǎn)生了負(fù)面影響,一個可能的研究方向就是設(shè)計新的優(yōu)化方法,或改進已有的方法,使得模型的安全性和效率能一同被考量。
推薦使用NVIDIA RTX 40 顯卡做模型推理:
http://systransis.cn/site/active/gpu.html?ytag=seo
https://www.compshare.cn/?ytag=seo
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/131114.html
摘要:是第一個提出體積小,計算量少,適用于移動設(shè)備的卷積神經(jīng)網(wǎng)絡(luò)。圖卷積運算匯總參考圖與神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索卷積神經(jīng)網(wǎng)絡(luò)已被廣泛用于圖像分類人臉識別目標(biāo)檢測和其他領(lǐng)域。 1、基本卷積運算手工設(shè)計輕量化模型主要思想在于設(shè)計更高效的網(wǎng)絡(luò)計算方式(主要針對卷積方式),從而使網(wǎng)絡(luò)參數(shù)減少,并且不損失網(wǎng)絡(luò)性能。本節(jié)概述了CNN模型(如MobileNet及其變體)中使用的基本卷積運算單元,并基于空間維度和通道維度...
摘要:論文可遷移性對抗樣本空間摘要對抗樣本是在正常的輸入樣本中故意添加細(xì)微的干擾,旨在測試時誤導(dǎo)機器學(xué)習(xí)模型。這種現(xiàn)象使得研究人員能夠利用對抗樣本攻擊部署的機器學(xué)習(xí)系統(tǒng)。 現(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)(CNN)識別圖像的能力已經(jīng)到了出神入化的地步,你可能知道在 ImageNet 競賽中,神經(jīng)網(wǎng)絡(luò)對圖像識別的準(zhǔn)確率已經(jīng)超過了人。但同時,另一種奇怪的情況也在發(fā)生。拿一張計算機已經(jīng)識別得比較準(zhǔn)確的圖像,稍作調(diào)整,...
摘要:節(jié)目中,鹿班將接受設(shè)計領(lǐng)域的兩輪檢驗,如果鹿班的作品被現(xiàn)場觀眾成功找出,則認(rèn)為鹿班通過檢驗。 近期,央視《機智過人》的舞臺上來了位三超設(shè)計師——設(shè)計能力超強;出圖能力超快;抗壓能力超強,成功迷惑嘉賓和現(xiàn)場觀眾,更讓撒貝寧出錯三連。 節(jié)目一開場,這位設(shè)計師就為現(xiàn)場嘉賓:主持人撒貝寧、演員韓雪、神經(jīng)科學(xué)家魯白生成了三張獨具特色的海報。幾乎是說話的瞬間,海報立即生成,出圖速度之快讓撒貝寧驚呼...
摘要:調(diào)研首先要確定微博領(lǐng)域的數(shù)據(jù),關(guān)于微博的數(shù)據(jù)可以這樣分類用戶基礎(chǔ)數(shù)據(jù)年齡性別公司郵箱地點公司等。這意味著深度學(xué)習(xí)在推薦領(lǐng)域應(yīng)用的關(guān)鍵技術(shù)點已被解決。 當(dāng)2012年Facebook在廣告領(lǐng)域開始應(yīng)用定制化受眾(Facebook Custom Audiences)功能后,受眾發(fā)現(xiàn)這個概念真正得到大規(guī)模應(yīng)用,什么叫受眾發(fā)現(xiàn)?如果你的企業(yè)已經(jīng)積累了一定的客戶,無論這些客戶是否關(guān)注你或者是否跟你在Fa...
閱讀 5591·2025-01-02 11:25
閱讀 507·2024-12-10 11:51
閱讀 475·2024-11-07 17:59
閱讀 389·2024-09-27 16:59
閱讀 543·2024-09-23 10:37
閱讀 629·2024-09-14 16:58
閱讀 393·2024-09-14 16:58
閱讀 611·2024-08-29 18:47