成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

基于unsloth的DeepSeek-R1動態(tài)量化版本部署

UCloud小助手 / 504人閱讀

DeepSeek-R1-671b動態(tài)量化版,由unsloth.ai發(fā)布,推薦使用多卡進行部署,具體操作如下。本鏡像還附帶32b的無限制版蒸餾模型,使用open-webui和ollama以及l(fā)lama.cpp進行部署,內(nèi)置所有環(huán)境,即拉即用。

第一步:登錄「優(yōu)云智算」算力共享平臺并進入「鏡像社區(qū)」,新用戶免費體驗10小時4090

地址:https://www.compshare.cn/?ytag=seo

第二步:選擇「vLLM-DeepSeek-R1-Distill」鏡像,點擊「使用該鏡像創(chuàng)建實例」

鏡像地址:優(yōu)云智算 | Unsloth-DeepSeek-R1一鍵部署

根據(jù)鏡像說明中的引導(dǎo),選擇所用模型需要的GPU算力規(guī)格,并點擊「立即部署」即可擁有一個自帶模型的算力資源。(動態(tài)量化版本推薦使用4卡或8卡4090)

第三步:啟動服務(wù),鏡像已配置好所需依賴環(huán)境,無需額外安裝,即可通過以下命令啟動:

打開jupyterlab

按照指引啟動llama.cpp

根據(jù)所開的機器卡數(shù)填寫對應(yīng)的顯存大小

按照指引將代碼塊修改并復(fù)制到終端中運行

運行完成后,訪問外網(wǎng)IP:10000即可開始使用

使用llama.cpp加載模型以后,再啟動open-webui,訪問ip:8080是這樣

注意:

1、unsloth文檔給了四個模型,鏡像默認選擇1.58的作為默認配置

2、部署1.58bit的如果需要全部加載到顯存上,需要2x80GB的顯卡,換算成24g的4090需要挺多張,但是相較于需要一大堆H100的671b的原本模型,所用配置已經(jīng)相當(dāng)?shù)土?,全部加載到內(nèi)存上推理可能會比較慢,因此可以通過將部分layer卸載到顯存上從而加快推理速度

3、單卡4090的話不是很推薦,顯存內(nèi)存加在一起都有點放不下,只有0.17token/s;雙卡4090,layer為17或者16,大概1.5token/s到2tokens/s之間,再多的話沒測過,雖然這速度也不是不能用,三卡應(yīng)該就能正常用了,當(dāng)然,選擇更大顯存的A100或者8卡4090,即可全部吃下,飛快使用

4、該鏡像還搭載了Ollama,你不想使用R1模型的話也可以試試蒸餾模型,單卡4090妥妥夠了,70b的那個中文效果還不如32g,鏡像內(nèi)自帶的兩個蒸餾模型分別是32b官方版和32b越獄般。啟動ollama服務(wù)后,再啟動open-webui,進入到open-webui即可使用

5、量化模型也可以在llama.cpp的serve上面推,open-webui并不是必須的


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/131186.html

相關(guān)文章

  • DeepSeek R1系列模型一鍵部署教程,支持云端免費體驗!

    DeepSeek-R1 Distill系列基于DeepSeek-R1的推理能力,通過蒸餾技術(shù)將推理能力遷移到較小的模型上,在保持高效性能的同時,成功降低了計算成本,實現(xiàn)了小身材、大智慧的完美平衡!該鏡像使用vLLM部署提供支持,適用于高性能大語言模型的推理和微調(diào)任務(wù),第一步:登錄「優(yōu)云智算」算力共享平臺并進入「鏡像社區(qū)」地址:https://www.compshare.cn/?ytag=seo 第...

    社區(qū)管理員 評論0 收藏1
  • 使用Ollama本地化部署DeepSeek

    DeepSeek-R1-32B-WebUIDeepSeek-R1采用強化學(xué)習(xí)進行后訓(xùn)練,旨在提升推理能力,尤其擅長數(shù)學(xué)、代碼和自然語言推理等復(fù)雜任務(wù),該鏡像安裝和使用 Ollama 和 Open WebUI,以便更好地利用深度學(xué)習(xí)模型進行推理和交互。第一步:登錄「優(yōu)云智算」算力共享平臺并進入「鏡像社區(qū)」地址:https://www.compshare.cn/?ytag=seo第二步:選擇「Deep...

    miguel.jiang 評論0 收藏0
  • 基于KtransformersDeepSeek-R1滿血版部署

    2月10日,清華大學(xué)KVCache.AI團隊聯(lián)合趨境科技發(fā)布的KTransformers開源項目公布更新:一塊24G顯存的4090D就可以在本地運行DeepSeek-R1、V3的671B滿血版。預(yù)處理速度最高達到286 tokens/s,推理生成速度最高能達到14 tokens/s。KTransformers通過優(yōu)化本地機器上的LLM部署,幫助解決資源限制問題。該框架采用了異構(gòu)計算、先進量化技術(shù)、...

    UCloud小助手 評論0 收藏0
  • 人工智能幫助千萬用戶完成「隱形征信」計算

    摘要:量化派是一家數(shù)據(jù)驅(qū)動的科技金融公司,通過人工智能大數(shù)據(jù)機器學(xué)習(xí)等前沿技術(shù)提供消費信貸撮合及消費場景下的白條服務(wù),每年處理千萬級用戶信用及信用消費申請。 「小楊」最近裝修房子,準備去銀行貸款,但是聽說好多人會因為個人征信問題被銀行拒絕貸款!于是,他先查了一下自己的央行征信,發(fā)現(xiàn)竟然沒有自己的征信信息,「小楊」陷入了沉思,自己經(jīng)常在淘寶、jd 上買東西,也有淘寶花唄和京東白條,怎么會沒有征...

    Developer 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<