小模型,成為本周的AI爆點(diǎn)。
與動(dòng)輒上千億參數(shù)的大模型相比,小模型的優(yōu)勢是顯而易見的:它們不僅計(jì)算成本更低,訓(xùn)練和部署也更為便捷,可以滿足計(jì)算資源受限、數(shù)據(jù)安全級別較高的各類場景。因此,在大筆投入大模型訓(xùn)練之余,像 OpenAI、谷歌等科技巨頭也在積極訓(xùn)練好用的小模型。先是HuggingFace推出了小模型SmoLLM;OpenAI直接殺入小模型戰(zhàn)場,發(fā)布了GPT-4o mini。
GPT-4o mini發(fā)布同天,歐洲最強(qiáng)AI初創(chuàng)公司Mistral立馬發(fā)布旗下最新最強(qiáng)小模型——Mistral NeMo。這個(gè)小模型由 Mistral AI 和英偉達(dá)聯(lián)合打造,參數(shù)量為120億(12B),上下文窗口為128k。這是一款尋求在不依賴大量云資源的情況下實(shí)施 AI 解決方案的企業(yè)的強(qiáng)大工具。
Mistral NeMo支持128K上下文,能夠更加連貫、準(zhǔn)確地處理廣泛且復(fù)雜的信息,確保輸出與上下文相關(guān)。
與同等參數(shù)規(guī)模模型相比,它的推理、世界知識和編碼準(zhǔn)確性都處于領(lǐng)先地位。
下表結(jié)果所示,除了在MMLU基準(zhǔn)上,Mistral NeMo不如Gemma 2 9B。但在多輪對話、數(shù)學(xué)、常識推理、世界知識和編碼等基準(zhǔn)中,超越了Gemma 2 9B和Llama 3 8B。
Mistral在Apache2.0許可證下發(fā)布了預(yù)訓(xùn)練的基本檢查點(diǎn)和指令微調(diào)檢查點(diǎn),允許商用。
Mistral NeMo 經(jīng)過量化感知訓(xùn)練,可在不損失任何性能的情況下進(jìn)行 FP8推理。
此外,模型使用FP8數(shù)據(jù)格式進(jìn)行模型推理,這可以減少內(nèi)存大小并加快部署速度,而不會(huì)降低準(zhǔn)確性。這意味著,模型可以流暢絲滑地學(xué)習(xí)任務(wù),并更有效地處理不同的場景,使其成為企業(yè)的理想選擇。
這種格式可以在任何地方輕松部署,各種應(yīng)用程序都能靈活使用。因此,模型可以在幾分鐘內(nèi),部署到任何地方,免去等待和設(shè)備限制的煩惱。
Mistral NeMo瞄準(zhǔn)企業(yè)用戶的使用,采用屬于NVIDIA AI Enterprise一部分的企業(yè)級軟件,具有專用功能分支、嚴(yán)格的驗(yàn)證流程以及企業(yè)級安全性的支持。開放模型許可證也允許企業(yè)將Mistral NeMo無縫集成到商業(yè)應(yīng)用程序中。
Mistral NeMo NIM專為安裝在單個(gè)NVIDIA L40S、NVIDIA GeForce RTX 4090或NVIDIA RTX 4500 GPU的內(nèi)存上而設(shè)計(jì),高效率低成本,并且保障安全性和隱私性。也就是說,單個(gè)英偉達(dá)L40S,一塊GPU就可跑了。
Mistral AI和英偉達(dá)各自擅長的領(lǐng)域結(jié)合,優(yōu)化了Mistral NeMo的訓(xùn)練和推理。模型利用Mistral AI的專業(yè)知識進(jìn)行訓(xùn)練,尤其是在多語言、代碼和多輪內(nèi)容方面,受益于英偉達(dá)全堆棧的加速訓(xùn)練。它專為實(shí)現(xiàn)最佳性能而設(shè)計(jì),利用高效的模型并行技術(shù)、可擴(kuò)展性以及與Megatron-LM的混合精度。該模型使用NVIDIA NeMo的一部分Megatron-LM進(jìn)行訓(xùn)練,在DGX Cloud上配備3,072個(gè)H100 80GB Tensor Core GPU,由NVIDIA AI架構(gòu)組成,包括加速計(jì)算、網(wǎng)絡(luò)結(jié)構(gòu)和軟件,以提高訓(xùn)練效率。
Mistral NeMo模型專為全球多語言應(yīng)用程序而設(shè)計(jì)。它受過函數(shù)調(diào)用訓(xùn)練,擁有一個(gè)大型上下文窗口,在英語、法語、德語、西班牙語、意大利語、葡萄牙語、中文、日語、韓語、阿拉伯語和印地語方面表現(xiàn)尤為突出??梢哉f,這是將前沿人工智能模型帶到全世界不同語言使用者手中的重要一步。下圖是Mistral NeMo 在多語言基準(zhǔn)測試中的表現(xiàn):
Mistral NeMo使用基于Tiktoken的全新分詞器——Tekken,該分詞器已針對100多種語言進(jìn)行訓(xùn)練,并且比以前的Mistral模型中使用的SentencePiece分詞器更有效地壓縮自然語言文本和源代碼。具體而言,在壓縮源代碼、中文、意大利語、法語、德語、西班牙語和俄語方面的效率提高了約30%;在壓縮韓語和阿拉伯語方面的效率也分別提高了2倍和3倍。與Llama 3分詞器相比,Tekken在壓縮大約85%的所有語言的文本方面表現(xiàn)更為出色。
Mistral NeMO 經(jīng)歷了高級微調(diào)和調(diào)整階段。與 Mistral 7B 相比,它在遵循精確指令、推理、處理多輪對話和生成代碼方面表現(xiàn)得更好。
隨著 AI 領(lǐng)域的不斷發(fā)展,Mistral-NeMo 的發(fā)布標(biāo)志著為企業(yè)提供更可訪問、高效和強(qiáng)大的 AI 工具方面的重要里程碑。這將如何影響更廣泛的 AI 生態(tài)系統(tǒng)還有待觀察,但可以肯定的是:將 AI 能力更接近最終用戶的競賽正在升溫,Nvidia 和 Mistral AI 已經(jīng)在這一方向上邁出了大膽的一步。用戶可以立即通過ai.nvidia.com作為NVIDIA NIM體驗(yàn)Mistral NeMo,可下載的NIM版本即將推出。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/131139.html
隨著大型模型技術(shù)的持續(xù)發(fā)展,視頻生成技術(shù)正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術(shù),正在重新定義行業(yè)的未來格局。而近幾個(gè)月,國產(chǎn)的AI視頻生成模型也是層出不窮,像是快手可靈、字節(jié)即夢、智譜清影、Vidu、PixVerse V2 等。就在近日,智譜AI秉承以先進(jìn)技術(shù),服務(wù)全球開發(fā)者的理念,宣布將與清影同源的視頻生成模型——CogVideoX開源,以期讓每一位開發(fā)者、每一家企...
Llama3 中文聊天項(xiàng)目綜合資源庫,該文檔集合了與Lama3 模型相關(guān)的各種中文資料,包括微調(diào)版本、有趣的權(quán)重、訓(xùn)練、推理、評測和部署的教程視頻與文檔。1. 多版本支持與創(chuàng)新:該倉庫提供了多個(gè)版本的Lama3 模型,包括基于不同技術(shù)和偏好的微調(diào)版本,如直接中文SFT版、Instruct偏好強(qiáng)化學(xué)習(xí)版、趣味版等。此外,還有Phi3模型中文資料倉庫的鏈接,和性能超越了8b版本的Llama3。2. 部...
2024年4月18日,Meta AI正式宣布推出開源大模型Llama3,這標(biāo)志著開源大型語言模型(LLM)領(lǐng)域的又一重大突破。Llama3以其卓越的性能和廣泛的應(yīng)用前景,或?qū)⑼苿?dòng)人工智能技術(shù)快速邁進(jìn)新紀(jì)元。為方便AI應(yīng)用企業(yè)及個(gè)人AI開發(fā)者快速體驗(yàn)Llama3的超高性能,近期優(yōu)刻得GPU云主機(jī)上線Llama3-8B-Instruct-Chinese鏡像,一鍵配置,快速部署模型開發(fā)環(huán)境。為客戶提供開...
NVIDIA和MIT的研究人員推出了一種新的視覺語言模型(VLM)預(yù)訓(xùn)練框架,名為VILA。這個(gè)框架旨在通過有效的嵌入對齊和動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)架構(gòu),改進(jìn)語言模型的視覺和文本的學(xué)習(xí)能力。VILA通過在大規(guī)模數(shù)據(jù)集如Coy0-700m上進(jìn)行預(yù)訓(xùn)練,采用基于LLaVA模型的不同預(yù)訓(xùn)練策略進(jìn)行測試。研究人員還引入了視覺指令調(diào)整方法,利用視覺語言數(shù)據(jù)集進(jìn)行基于提示的指令調(diào)整來細(xì)化模型。VILA在視覺問答基準(zhǔn)測試中...
NVIDIA和MIT的研究人員推出了一種新的視覺語言模型(VLM)預(yù)訓(xùn)練框架,名為VILA。這個(gè)框架旨在通過有效的嵌入對齊和動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)架構(gòu),改進(jìn)語言模型的視覺和文本的學(xué)習(xí)能力。VILA通過在大規(guī)模數(shù)據(jù)集如Coy0-700m上進(jìn)行預(yù)訓(xùn)練,采用基于LLaVA模型的不同預(yù)訓(xùn)練策略進(jìn)行測試。研究人員還引入了視覺指令調(diào)整方法,利用視覺語言數(shù)據(jù)集進(jìn)行基于提示的指令調(diào)整來細(xì)化模型。VILA在視覺問答基準(zhǔn)測試中...
閱讀 177·2024-11-07 17:59
閱讀 225·2024-09-27 16:59
閱讀 357·2024-09-23 10:37
閱讀 403·2024-09-14 16:58
閱讀 267·2024-09-14 16:58
閱讀 371·2024-08-29 18:47
閱讀 603·2024-08-16 14:40
閱讀 323·2024-08-14 17:54