基于unsloth的DeepSeek-R1動態(tài)量化版本部署

UCloud小助手發(fā)布于2025-02-08 10:20 / 504人閱讀

DeepSeek-R1-671b動態(tài)量化版，由unsloth.ai發(fā)布，推薦使用多卡進行部署，具體操作如下。本鏡像還附帶32b的無限制版蒸餾模型，使用open-webui和ollama以及l(fā)lama.cpp進行部署，內(nèi)置所有環(huán)境，即拉即用。

第一步：登錄「優(yōu)云智算」算力共享平臺并進入「鏡像社區(qū)」，新用戶免費體驗10小時4090

地址：https://www.compshare.cn/?ytag=seo

第二步：選擇「vLLM-DeepSeek-R1-Distill」鏡像，點擊「使用該鏡像創(chuàng)建實例」

鏡像地址：優(yōu)云智算 | Unsloth-DeepSeek-R1一鍵部署

根據(jù)鏡像說明中的引導(dǎo)，選擇所用模型需要的GPU算力規(guī)格，并點擊「立即部署」即可擁有一個自帶模型的算力資源。（動態(tài)量化版本推薦使用4卡或8卡4090）

第三步：啟動服務(wù)，鏡像已配置好所需依賴環(huán)境，無需額外安裝，即可通過以下命令啟動：

打開jupyterlab

按照指引啟動llama.cpp

根據(jù)所開的機器卡數(shù)填寫對應(yīng)的顯存大小

按照指引將代碼塊修改并復(fù)制到終端中運行

運行完成后，訪問外網(wǎng)IP:10000即可開始使用

使用llama.cpp加載模型以后，再啟動open-webui，訪問ip:8080是這樣

注意：

1、unsloth文檔給了四個模型，鏡像默認選擇1.58的作為默認配置

2、部署1.58bit的如果需要全部加載到顯存上，需要2x80GB的顯卡，換算成24g的4090需要挺多張，但是相較于需要一大堆H100的671b的原本模型，所用配置已經(jīng)相當(dāng)?shù)土?，全部加載到內(nèi)存上推理可能會比較慢，因此可以通過將部分layer卸載到顯存上從而加快推理速度

3、單卡4090的話不是很推薦，顯存內(nèi)存加在一起都有點放不下，只有0.17token/s；雙卡4090，layer為17或者16，大概1.5token/s到2tokens/s之間，再多的話沒測過，雖然這速度也不是不能用，三卡應(yīng)該就能正常用了，當(dāng)然，選擇更大顯存的A100或者8卡4090，即可全部吃下，飛快使用

4、該鏡像還搭載了Ollama，你不想使用R1模型的話也可以試試蒸餾模型，單卡4090妥妥夠了，70b的那個中文效果還不如32g，鏡像內(nèi)自帶的兩個蒸餾模型分別是32b官方版和32b越獄般。啟動ollama服務(wù)后，再啟動open-webui，進入到open-webui即可使用

5、量化模型也可以在llama.cpp的serve上面推，open-webui并不是必須的

RTX40系云服務(wù)器 GPU云服務(wù)器基于docker的私有云部署基于云服務(wù)器的部署基于docker的混合云部署方案 SWR 發(fā)布 1.0 版本、Micros

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/131186.html

發(fā)表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關(guān)注我要私信

TA的文章

DeepSeek從入門到精通（2）：0成本用DeepSeek（滿血版）搭建本地知識庫

閱讀 107·2025-02-19 18:27
DeepSeek從入門到精通（1）：10分鐘用DeepSeek搭建私有化知識庫

閱讀 128·2025-02-19 18:21
基于Ktransformers的DeepSeek-R1滿血版部署

閱讀 64·2025-02-19 13:50
UCloud X DeepSeek V3、R1滿血版橫向大對比！

閱讀 795·2025-02-13 22:35
基于unsloth的DeepSeek-R1動態(tài)量化版本部署

閱讀 505·2025-02-08 10:20
2025年U大使新年軟文推廣限時活動

閱讀 5778·2025-01-02 11:25
U大使獎勵規(guī)則全新發(fā)布

閱讀 741·2024-12-10 11:51
服務(wù)器常用端口大全

閱讀 580·2024-11-07 17:59

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

基于unsloth的DeepSeek-R1動態(tài)量化版本部署

第一步：登錄「優(yōu)云智算」算力共享平臺并進入「鏡像社區(qū)」，新用戶免費體驗10小時4090

第二步：選擇「vLLM-DeepSeek-R1-Distill」鏡像，點擊「使用該鏡像創(chuàng)建實例」

第三步：啟動服務(wù)，鏡像已配置好所需依賴環(huán)境，無需額外安裝，即可通過以下命令啟動：

相關(guān)文章

DeepSeek R1系列模型一鍵部署教程，支持云端免費體驗！

使用Ollama本地化部署DeepSeek

**基于Ktransformers的DeepSeek-R1滿血版部署**

人工智能幫助千萬用戶完成「隱形征信」計算

發(fā)表評論

0條評論

UCloud小助手

男|高級講師

TA的文章

DeepSeek從入門到精通（2）：0成本用DeepSeek（滿血版）搭建本地知識庫

DeepSeek從入門到精通（1）：10分鐘用DeepSeek搭建私有化知識庫

基于Ktransformers的DeepSeek-R1滿血版部署

UCloud X DeepSeek V3、R1滿血版橫向大對比！