DeepSeek-R1-671b動態(tài)量化版,由unsloth.ai發(fā)布,推薦使用多卡進行部署,具體操作如下。本鏡像還附帶32b的無限制版蒸餾模型,使用open-webui和ollama以及l(fā)lama.cpp進行部署,內(nèi)置所有環(huán)境,即拉即用。
第一步:登錄「優(yōu)云智算」算力共享平臺并進入「鏡像社區(qū)」,新用戶免費體驗10小時4090
地址:https://www.compshare.cn/?ytag=seo
第二步:選擇「vLLM-DeepSeek-R1-Distill」鏡像,點擊「使用該鏡像創(chuàng)建實例」
鏡像地址:優(yōu)云智算 | Unsloth-DeepSeek-R1一鍵部署
根據(jù)鏡像說明中的引導(dǎo),選擇所用模型需要的GPU算力規(guī)格,并點擊「立即部署」即可擁有一個自帶模型的算力資源。(動態(tài)量化版本推薦使用4卡或8卡4090)
第三步:啟動服務(wù),鏡像已配置好所需依賴環(huán)境,無需額外安裝,即可通過以下命令啟動:
打開jupyterlab
按照指引啟動llama.cpp
根據(jù)所開的機器卡數(shù)填寫對應(yīng)的顯存大小
按照指引將代碼塊修改并復(fù)制到終端中運行
運行完成后,訪問外網(wǎng)IP:10000即可開始使用
使用llama.cpp加載模型以后,再啟動open-webui,訪問ip:8080是這樣
注意:
1、unsloth文檔給了四個模型,鏡像默認選擇1.58的作為默認配置
2、部署1.58bit的如果需要全部加載到顯存上,需要2x80GB的顯卡,換算成24g的4090需要挺多張,但是相較于需要一大堆H100的671b的原本模型,所用配置已經(jīng)相當(dāng)?shù)土?,全部加載到內(nèi)存上推理可能會比較慢,因此可以通過將部分layer卸載到顯存上從而加快推理速度
3、單卡4090的話不是很推薦,顯存內(nèi)存加在一起都有點放不下,只有0.17token/s;雙卡4090,layer為17或者16,大概1.5token/s到2tokens/s之間,再多的話沒測過,雖然這速度也不是不能用,三卡應(yīng)該就能正常用了,當(dāng)然,選擇更大顯存的A100或者8卡4090,即可全部吃下,飛快使用
4、該鏡像還搭載了Ollama,你不想使用R1模型的話也可以試試蒸餾模型,單卡4090妥妥夠了,70b的那個中文效果還不如32g,鏡像內(nèi)自帶的兩個蒸餾模型分別是32b官方版和32b越獄般。啟動ollama服務(wù)后,再啟動open-webui,進入到open-webui即可使用
5、量化模型也可以在llama.cpp的serve上面推,open-webui并不是必須的
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/131186.html
DeepSeek-R1 Distill系列基于DeepSeek-R1的推理能力,通過蒸餾技術(shù)將推理能力遷移到較小的模型上,在保持高效性能的同時,成功降低了計算成本,實現(xiàn)了小身材、大智慧的完美平衡!該鏡像使用vLLM部署提供支持,適用于高性能大語言模型的推理和微調(diào)任務(wù),第一步:登錄「優(yōu)云智算」算力共享平臺并進入「鏡像社區(qū)」地址:https://www.compshare.cn/?ytag=seo 第...
DeepSeek-R1-32B-WebUIDeepSeek-R1采用強化學(xué)習(xí)進行后訓(xùn)練,旨在提升推理能力,尤其擅長數(shù)學(xué)、代碼和自然語言推理等復(fù)雜任務(wù),該鏡像安裝和使用 Ollama 和 Open WebUI,以便更好地利用深度學(xué)習(xí)模型進行推理和交互。第一步:登錄「優(yōu)云智算」算力共享平臺并進入「鏡像社區(qū)」地址:https://www.compshare.cn/?ytag=seo第二步:選擇「Deep...
2月10日,清華大學(xué)KVCache.AI團隊聯(lián)合趨境科技發(fā)布的KTransformers開源項目公布更新:一塊24G顯存的4090D就可以在本地運行DeepSeek-R1、V3的671B滿血版。預(yù)處理速度最高達到286 tokens/s,推理生成速度最高能達到14 tokens/s。KTransformers通過優(yōu)化本地機器上的LLM部署,幫助解決資源限制問題。該框架采用了異構(gòu)計算、先進量化技術(shù)、...
摘要:量化派是一家數(shù)據(jù)驅(qū)動的科技金融公司,通過人工智能大數(shù)據(jù)機器學(xué)習(xí)等前沿技術(shù)提供消費信貸撮合及消費場景下的白條服務(wù),每年處理千萬級用戶信用及信用消費申請。 「小楊」最近裝修房子,準備去銀行貸款,但是聽說好多人會因為個人征信問題被銀行拒絕貸款!于是,他先查了一下自己的央行征信,發(fā)現(xiàn)竟然沒有自己的征信信息,「小楊」陷入了沉思,自己經(jīng)常在淘寶、jd 上買東西,也有淘寶花唄和京東白條,怎么會沒有征...
閱讀 107·2025-02-19 18:27
閱讀 128·2025-02-19 18:21
閱讀 64·2025-02-19 13:50
閱讀 795·2025-02-13 22:35
閱讀 505·2025-02-08 10:20
閱讀 5778·2025-01-02 11:25
閱讀 741·2024-12-10 11:51
閱讀 580·2024-11-07 17:59