在人工智能領(lǐng)域,我們深感技術(shù)發(fā)展的迅速和成就的巨大。其中,法國(guó)初創(chuàng)公司MistralAI在這方面尤為令人矚目。MistralAI成立于2023年5月,由DeepMind和Meta的前科學(xué)家創(chuàng)立,被稱為“歐洲版OpenAI”。
這是一家創(chuàng)新而富有前景的公司,他們的雄心壯志和成績(jī)讓人嘆為觀止。這家公司以產(chǎn)生開源大型語(yǔ)言模型著稱,其中最受人矚目的是 Mistral 7B 和 Mixtral 8x7B。這些模型在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,展現(xiàn)了強(qiáng)大的自然語(yǔ)言處理能力和廣泛的應(yīng)用前景。這不僅推動(dòng)了自然語(yǔ)言處理技術(shù)的發(fā)展,也為開發(fā)者提供了更多的選擇和可能性。
而就在今天,MistralAI在其不斷壯大的大語(yǔ)言模型(LLM)家族中增添了兩名新成員:一位是名為Mathstral的基于數(shù)學(xué)的模型,另一位是基于其他研究人員去年年底開發(fā)的名為Mamba的新架構(gòu),供程序員和開發(fā)人員提供的代碼生成模型。
現(xiàn)在,通過(guò)采用這種新架構(gòu),Mistral 新推出的 Codestral Mamba 7B的模型即使在處理較長(zhǎng)的輸入文本時(shí)也能提供快速的響應(yīng)時(shí)間。Codestral Mamba非常適合代碼生成,尤其是對(duì)于更本地化的編程項(xiàng)目。本文接下來(lái)將簡(jiǎn)單介紹一下Mamba以及MistralAI。
“Mamba”架構(gòu):大道至簡(jiǎn),加強(qiáng)效率
Codestral Mamba 是一種狀態(tài)空間模型架構(gòu),與 transformer架構(gòu)相比具有顯著優(yōu)勢(shì):transformer 推理計(jì)算(通常是推理時(shí)間)與上下文/序列長(zhǎng)度呈二次縮放,而 Mamba 架構(gòu)呈線性縮放。這就是為什么 Codestral Mamba 能夠提供 256k 令牌的上下文窗口,>7 倍 Mistral 7B 的上下文窗口。這也意味著在使用模型時(shí)可以更快地進(jìn)行推理/速度,特別是對(duì)于RAG等大型上下文用例。
Mamba架構(gòu)旨在通過(guò)簡(jiǎn)化注意力機(jī)制來(lái)提高大多數(shù)領(lǐng)先 LLM 使用的 transformer 架構(gòu)的效率。與更常見的基于 transformer 的模型不同,基于 Mamba 的模型可以具有更快的推理時(shí)間和更長(zhǎng)的上下文。包括 AI21 在內(nèi)的其他公司和開發(fā)商已經(jīng)發(fā)布了基于它的新 AI 模型。
現(xiàn)在,使用這種新架構(gòu),Mistral旗下恰如其名的Codestral Mamba 7B 即便輸入較長(zhǎng)的文本也能提供快速響應(yīng)時(shí)間。Codestral Mamba 非常適合代碼生產(chǎn)力用例,尤其是對(duì)于更多本地編碼項(xiàng)目。
Mistral 測(cè)試了該模型,測(cè)試結(jié)果顯示該模型可以在 Mistral 的 l a Plateforme API上免費(fèi)使用,可處理多達(dá) 256,000 個(gè)令牌的輸入——是 OpenAI 的 GPT-4o 的兩倍。這種高效的模型對(duì)編程開發(fā)尤其重要,不受輸入長(zhǎng)度的限制意味著模型可以讀取更多代碼內(nèi)容并根據(jù)上下文編寫更適合的代碼、幫助開發(fā)者構(gòu)建更完整的項(xiàng)目。
在基準(zhǔn)測(cè)試中,Mistral 表明 Codestral Mamba 在 HumanEval 測(cè)試中的表現(xiàn)明顯優(yōu)于競(jìng)爭(zhēng)對(duì)手開源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。
開發(fā)人員可以從 GitHub 存儲(chǔ)庫(kù)和 HuggingFace 修改和部署 Codestral Mamba。它將采用開源 Apache 2.0 許可證。
Mistral 聲稱Codestral 的早期版本優(yōu)于其他代碼生成器,如 CodeLlama 70B 和 DeepSeek Coder 33B。
需要說(shuō)的是,Codestral Mamba 同樣是一個(gè)指導(dǎo)模型,開發(fā)者可以根據(jù)自己的需要使用 mistral-inference 進(jìn)行微調(diào)訓(xùn)練,打造適合自己或特定領(lǐng)域的版本。
代碼生成和編碼助手已經(jīng)成為人工智能模型廣泛使用的應(yīng)用程序,其中由 OpenAI 提供支持的GitHub 的 Copilot、亞馬遜的 CodeWhisperer和Codenium等平臺(tái)越來(lái)越受歡迎。
“Mathstral”模型:兼顧數(shù)學(xué)與推理
Mistral 推出的第二款模型是Mathstral 7B,這是一種專為數(shù)學(xué)推理和科學(xué)發(fā)現(xiàn)而設(shè)計(jì)的人工智能模型。Mistral 與 Project Numina 合作開發(fā)了 Mathstral。
Mathstral 擁有 32K 上下文窗口,將采用 Apache 2.0 開源許可。Mistral 表示,該模型的表現(xiàn)優(yōu)于所有為數(shù)學(xué)推理設(shè)計(jì)的模型。它可以在具有更多推理時(shí)間計(jì)算的基準(zhǔn)測(cè)試中實(shí)現(xiàn)“明顯更好的結(jié)果”。用戶可以按原樣使用它,也可以對(duì)模型進(jìn)行微調(diào)。
Mistral 在一篇博客文章中表示:“Mathstral 是構(gòu)建特定用途模型時(shí)實(shí)現(xiàn)的出色性能/速度權(quán)衡的另一個(gè)例子——這是我們?cè)?la Plateforme 中積極推廣的開發(fā)理念,尤其是其新的微調(diào)功能。”
MistralAI:堅(jiān)持開源的新興獨(dú)角獸
Mistral AI 是一家法國(guó)人工智能公司。它于 2023 年 4 月由曾受雇于 Meta 和 Google 的研究人員創(chuàng)建,包括:Arthur Mensch、Timothée Lacroix 和 Guillaume Lample。截至 2023 年 12 月,該公司已融資 6.6 億美元。2023 年 12 月,該公司的估值超過(guò) 20 億美元,晉身獨(dú)角獸。
Mistral AI的技術(shù)架構(gòu)建立在數(shù)據(jù)層、算法層和模型層之上,通過(guò)運(yùn)用深度學(xué)習(xí)等先進(jìn)算法,實(shí)現(xiàn)對(duì)數(shù)據(jù)的智能分析、處理和應(yīng)用。
與具有諷刺意味的名字 OpenAI 不同,Mistral AI 產(chǎn)生開源大型語(yǔ)言模型,這意味著這些模型可以免費(fèi)用于商業(yè)用途。開發(fā)人員還可以更改、復(fù)制或更新源代碼,并將其與許可證副本一起分發(fā)。正因如此,Mistral AI的成立和發(fā)展在法國(guó)乃至歐洲都引起了廣泛關(guān)注。其開源的人工智能大模型在歐洲向封閉的OpenAI發(fā)起了挑戰(zhàn),被視為法國(guó)挑戰(zhàn)美國(guó)科技巨頭的一個(gè)機(jī)遇。
官網(wǎng):https://mistral.ai/
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/131135.html
摘要:并且,越是臨近項(xiàng)目截止日期,越是需要工作更長(zhǎng)的時(shí)間。真正優(yōu)秀的程序員善于與人交往,但大多數(shù)程序員缺乏這些能力。項(xiàng)目經(jīng)驗(yàn)以上的內(nèi)容如果都精通了,也算是個(gè)比較厲害的程序員了。但是對(duì)程序員來(lái)說(shuō),項(xiàng)目經(jīng)驗(yàn)更加重要。 無(wú)論做什么工作,?都希望能做到最好,?就像參與一款游戲,?每個(gè)人都希望能贏到最后.程序員工作自然也會(huì)有其秘籍,?讓我們更快的實(shí)現(xiàn)目標(biāo)。 身體 身體看似最不重要,?其實(shí)不...
在最近的大模型戰(zhàn)爭(zhēng)中,OpenAI似乎很難維持霸主地位。雖然沒(méi)有具體的數(shù)據(jù)統(tǒng)計(jì),但Claude3.5出現(xiàn)后,只是看網(wǎng)友們的反響,就能感覺(jué)到OpenAI訂閱用戶的流失:既然Claude3.5比GPT-4o好用,為什么我們不去訂閱Claude呢?而這長(zhǎng)達(dá)數(shù)月的批評(píng)聲中,OpenAI似乎盡顯頹勢(shì),除了GPT-4o mini這個(gè)小模型以外,似乎再也沒(méi)有什么創(chuàng)新點(diǎn)。甚至就在前幾日,GPT-4o還被開源的大模...
摘要:一旦當(dāng)你理解了一些東西的時(shí)候,卻很容易再一次忘記。但是很快,你會(huì)發(fā)現(xiàn)你已經(jīng)忘記了之前所學(xué)到的一些東西,因此你需要重新復(fù)習(xí)。但是,這次你又忘記了其他的一些東西。你會(huì)感到氣餒,休息一下后,你準(zhǔn)備重新開始,卻發(fā)現(xiàn)已經(jīng)忘記了所有的東西。 在學(xué)習(xí)JavaScript中應(yīng)該有過(guò)這樣的經(jīng)歷,比如:? ??? ?? 有些概念容易混淆,特別是當(dāng)你學(xué)習(xí)過(guò)其他語(yǔ)言的時(shí)候。? ?? 很難找到學(xué)習(xí)的時(shí)間(有時(shí)候...
摘要:我們?cè)谖餮艌D舉行的活動(dòng)年月日至日,是我們規(guī)模最大的,提前幾周售罄,共有名與會(huì)者。巴塞羅那的聯(lián)合主席是的和的。年的新優(yōu)化,我們安排提供一個(gè)分鐘的會(huì)議。巴塞羅那提交的提案包括一個(gè)標(biāo)題和最多個(gè)英文字符的描述,如果獲選為演講,會(huì)在時(shí)間表中使用。 KubeCon + CloudNativeCon從2015年開始的500名與會(huì)者,擴(kuò)展到成為有史以來(lái)規(guī)模最大,最成功的開源會(huì)議之一。隨著這種增長(zhǎng)帶來(lái)了...
閱讀 177·2024-11-07 17:59
閱讀 225·2024-09-27 16:59
閱讀 357·2024-09-23 10:37
閱讀 403·2024-09-14 16:58
閱讀 267·2024-09-14 16:58
閱讀 371·2024-08-29 18:47
閱讀 603·2024-08-16 14:40
閱讀 323·2024-08-14 17:54