無問芯穹Qllm-Eval：制作多模型、多參數(shù)、多維度的量化方案

UCloud小助手發(fā)布于2024-06-25 11:55 / 424人閱讀

前言

近年來，大語言模型（Large Models, LLMs）受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注，得益于其在各種語言生成任務(wù)上的出色表現(xiàn)，大語言模型推動了各種人工智能應(yīng)用（例如ChatGPT、Copilot等）的發(fā)展。然而，大模型的落地應(yīng)用受到其較大的推理開銷的限制，對部署資源、用戶體驗、經(jīng)濟成本都帶來了巨大挑戰(zhàn)。

大模型壓縮，即將大模型“瘦身”后塞進資源受限的場景，以減少模型存儲、訪存和計算開銷。在盡量不損失模型性能的前提下，提高大模型推理吞吐速度，使大模型在物聯(lián)網(wǎng)邊緣設(shè)備、嵌入式機器人、離線移動應(yīng)用等邊、端場景中保持優(yōu)秀的推理性能和功耗表現(xiàn)。

就在最近，來自清華大學(xué)電子工程系、無問芯穹和上海交通大學(xué)的研究團隊展開了一次量化方案的“大摸底”，在《Evaluating Quantized Large Language Models 》（Qllm-Eval）這項工作中評估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務(wù)上的性能，本篇工作已被ICML'24接收。Qllm-Eval列舉出很多大模型落地環(huán)節(jié)應(yīng)當(dāng)關(guān)注的模型能力，對產(chǎn)業(yè)中的模型量化工作實踐，比如如何選取量化方法、針對哪些層或組件進行優(yōu)化等問題具有指導(dǎo)意義，下圖是羅列的一些重要知識點。

訓(xùn)練后量化(Post-Training Quantization，PTQ)

大模型推理過程包括兩個階段：Prefill階段和Decoding階段：

Prefill階段的主要算子為矩陣-矩陣乘（GEMM），其推理速度受限于計算速度。
Decoding階段的主要算子為矩陣-向量乘（GEMV），其推理速度主要受限于訪存速度。
當(dāng)處理涉及長文本或大批量大小的任務(wù)時，KV Cache的存儲開銷會超過權(quán)重的存儲開銷。

訓(xùn)練后量化（Post-Training Quantization，PTQ）是大模型壓縮的常用技術(shù)，其核心原理是將大模型的權(quán)重、激活值、KV Cache使用低精度格式表示，從而降低大模型在存儲和計算上的開銷。

在深度學(xué)習(xí)模型中，權(quán)重（weights）、激活值（activations）和鍵值緩存（KV Cache）等數(shù)值通常以32位或16位的浮點數(shù)（floats）來表示，這些浮點數(shù)可以有非常精確的數(shù)值，但同時也意味著模型會占用較大的存儲空間，并且需要比較多的計算資源來處理。

如果將浮點數(shù)從16位轉(zhuǎn)換成8位或者更低，好處是模型的大小會顯著減少，因為每個參數(shù)只需要不到50%的存儲空間，同時，使用整數(shù)進行計算通常比浮點數(shù)更快。

不同量化方式給大模型帶來的影響

但量化壓縮通常是有損的，不同量化方式的設(shè)計會對模型性能帶來不同的影響。為了探究不同量化方式對不同模型究竟會產(chǎn)生什么樣的影響，并幫助特定模型選擇更適合的量化方案，來自清華大學(xué)電子工程系、無問芯穹和上海交通大學(xué)的研究團隊展開了一次量化方案的“大摸底”，在《Evaluating Quantized Large Language Models 》（Qllm-Eval）這項工作中評估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務(wù)上的性能。

Qllm-Eval評測的量化張量類型包括權(quán)重（W）、權(quán)重-激活（WA）、KV Cache（KV），通過評估 PTQ 對 11 個系列模型（包括 OPT、LLaMA2、Falcon、Bloomz、Mistral、ChatGLM、Vicuna、LongChat、StableLM、Gemma 和 Mamba）的權(quán)重、激活和 KV 緩存的影響，對這些因素進行了全面評估，覆蓋了從 125M 到 180B的參數(shù)范圍。另外還評估了最先進的（SOTA）量化方法，以驗證其適用性。同時在大量實驗的基礎(chǔ)上，系統(tǒng)總結(jié)了量化的效果，提出了應(yīng)用量化技術(shù)的建議，并指出了大模型量化工作未來的發(fā)展方向。

大模型推理效率瓶頸分析

目前主流的大語言模型都是基于Transformer架構(gòu)進行設(shè)計。通常來說，一個完整的模型架構(gòu)由多個相同結(jié)構(gòu)的Transformer塊組成，每個Transformer塊則包含多頭自注意力（Multi-Head Self-Attention, MHSA）模塊、前饋神經(jīng)網(wǎng)絡(luò)（Feed Forward Network, FFN）和層歸一化（Layer Normalization，LN）操作。

大語言模型通常自回歸（Auto-regressive）的方式生成輸出序列，即模型逐個詞塊生成，且生成每個詞塊時需要將前序的所有詞塊（包括輸入詞塊和前面已生成的詞塊）全部作為模型的輸入。因此，隨著輸出序列的增長，推理過程的開銷顯著增大。為了解決該問題，KV緩存技術(shù)被提出，該技術(shù)通過存儲和復(fù)用前序詞塊在計算注意力機制時產(chǎn)生的Key和Value向量，減少大量計算上的冗余，用一定的存儲開銷換取了顯著的加速效果。基于KV緩存技術(shù)，通?？梢詫⒋笳Z言模型的推理過程劃分為兩個階段（分別如下左圖和右圖所示）：

左：預(yù)填充（Prefilling）階段：大語言模型計算并存儲輸入序列中詞塊的Key和Value向量，并生成第一個輸出詞塊。

右：解碼（Decoding）階段：大語言模型利用KV緩存技術(shù)逐個生成輸出詞塊，并在每步生成后存儲新詞塊的Key和Value向量。

數(shù)據(jù)層優(yōu)化技術(shù)

數(shù)據(jù)層優(yōu)化技術(shù)可以劃分為兩大類：輸入壓縮（Input Compression）和輸出規(guī)劃（Output Organization）。

輸入壓縮技術(shù)

在實際利用大語言模型做回答時，通常會在輸入提示詞中加入一些輔助內(nèi)容來增強模型的回答質(zhì)量，例如，上下文學(xué)習(xí)技術(shù)（In-Context Learning，ICL）提出在輸入中加入多個相關(guān)的問答例子來教模型如何作答。然而，這些技術(shù)不可避免地會增長輸入詞提示的長度，導(dǎo)致模型推理的開銷增大。為了解決該問題，輸入壓縮技術(shù)通過直接減小輸入的長度來優(yōu)化模型的推理效率。

本綜述將該類技術(shù)進一步劃分為四個小類，分別為：

提示詞剪枝（Prompt Pruning）：通常根據(jù)設(shè)計好的重要度評估指標(biāo)刪除輸入提示詞中不重要的詞塊、句子或文段，對被壓縮的輸入提示詞執(zhí)行在線壓縮。
提示詞總結(jié)（Prompt Summary）：通過對輸入提示詞做文本總結(jié)任務(wù)，在保證其語義信息相同地情況下縮短輸入的長度。該壓縮過程通常也是在線執(zhí)行的。
基于軟提示詞的壓縮（Soft Prompt-based Compression）：通過微調(diào)訓(xùn)練的方式得到一個長度較短的軟提示詞，代替原先的輸入提示詞（在線執(zhí)行）或其中固定的一部分內(nèi)容（離線執(zhí)行）。其中，軟提示詞指連續(xù)的、可學(xué)習(xí)的詞塊序列，可以通過訓(xùn)練的方式學(xué)習(xí)得到。
檢索增強生成（Retrieval-Augmented Generation）：通過檢索和輸入相關(guān)的輔助內(nèi)容，并只將這些相關(guān)的內(nèi)容加入到輸入提示詞中，來降低原本的輸入長度（相比于加入所有輔助內(nèi)容）。

輸出規(guī)劃技術(shù)

傳統(tǒng)的生成解碼方式是完全串行的，輸出規(guī)劃技術(shù)通過規(guī)劃輸出內(nèi)容，并行生成某些部分的的輸出來降低端到端的推理延時。以該領(lǐng)域最早的工作“思維骨架”（Skeleton-of-Thought，以下簡稱SoT）為例，SoT技術(shù)的核心思想是讓大語言模型自行規(guī)劃輸出的并行結(jié)構(gòu)，并基于該結(jié)構(gòu)進行并行解碼，提升硬件利用率，減少端到端生成延時。

具體來說，如下圖所示，SoT將大語言模型的生成分為兩個階段：在提綱階段，SoT通過設(shè)計的提示詞讓大語言模型輸出答案的大綱；在分點擴展階段，SoT讓大語言模型基于大綱中的每一個分點并行做擴展，最后將所有分點擴展的答案合并起來。SoT技術(shù)讓包含LLaMA-2、Vicuna模型在內(nèi)的9種主流大語言模型的生成過程加速1.9倍以上，最高可達(dá)2.39倍。在SoT技術(shù)發(fā)布后，一些研究工作通過微調(diào)大語言模型、前后端協(xié)同優(yōu)化等方式優(yōu)化輸出規(guī)劃技術(shù)，達(dá)到了更好的加速比和回答質(zhì)量之間的權(quán)衡點。

未來方向

本文進一步總結(jié)了未來的四個關(guān)鍵應(yīng)用場景，并討論了高效性研究在這些場景中的重要性：

智能體和多模型框架。在最近的研究中，大語言模型智能體和多模型協(xié)同框架受到了許多關(guān)注，這類技術(shù)可以提升大語言模型的應(yīng)用能力，使得模型能更好地服務(wù)于人類。然而模型的數(shù)量增多，以及輸入到模型中的指令變長，都會使得智能體或框架系統(tǒng)的推理效率變低。因此需要面向這些框架和場景進行大模型的推理效率優(yōu)化。
長文本場景。隨著輸入模型文本變得越來越長，大語言模型的效率優(yōu)化需求變得愈發(fā)提升。目前在數(shù)據(jù)層、模型層和系統(tǒng)層均有相關(guān)的技術(shù)來優(yōu)化長文本場景下大語言模型的推理效率，其中設(shè)計Transformer的替代新架構(gòu)受到了許多關(guān)注，然而這類架構(gòu)還未被充分探索，其是否能匹敵傳統(tǒng)的Transformer模型仍未清楚。
邊緣端部署。最近，許多研究工作開始關(guān)注于將大語言模型部署到邊緣設(shè)備上，例如移動手機。一類工作致力于設(shè)計將大模型變小，通過直接訓(xùn)練小模型或模型壓縮等途徑達(dá)到該目的；另一類工作聚焦于系統(tǒng)層的優(yōu)化，通過算子融合、內(nèi)存管理等技術(shù)，直接將70億參數(shù)規(guī)模的大模型成功部署到移動手機上。
安全-效率協(xié)同優(yōu)化。除了任務(wù)精度和推理效率外，大語言模型的安全性也是一個需要被考量的指標(biāo)。當(dāng)前的高效性研究均未考慮優(yōu)化技術(shù)對模型安全性的影響。若這些優(yōu)化技術(shù)對模型的安全性產(chǎn)生了負(fù)面影響，一個可能的研究方向就是設(shè)計新的優(yōu)化方法，或改進已有的方法，使得模型的安全性和效率能一同被考量。
推薦使用NVIDIA RTX 40 顯卡做模型推理：

http://systransis.cn/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo

GPU云服務(wù)器云服務(wù)器多參數(shù)過程 python多參數(shù) python 多參數(shù) java 多參數(shù)返回

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/131114.html

發(fā)表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關(guān)注我要私信

TA的文章

2025年U大使新年軟文推廣限時活動

閱讀 5591·2025-01-02 11:25
U大使獎勵規(guī)則全新發(fā)布

閱讀 507·2024-12-10 11:51
服務(wù)器常用端口大全

閱讀 475·2024-11-07 17:59
又來!OpenAI 宮斗大戲曝光,首席技術(shù)官Mira 離職

閱讀 389·2024-09-27 16:59
2.4K star的GOT-OCR2.0：端到端OCR 模型

閱讀 543·2024-09-23 10:37
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 629·2024-09-14 16:58
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 393·2024-09-14 16:58
網(wǎng)頁開發(fā)助手——自動編寫運行代碼

閱讀 611·2024-08-29 18:47

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

無問芯穹Qllm-Eval：制作多模型、多參數(shù)、多維度的量化方案

前言

訓(xùn)練后量化(Post-Training Quantization，PTQ)

不同量化方式給大模型帶來的影響

大模型推理效率瓶頸分析