成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

亞馬遜發(fā)布新版MXNet:支持英偉達(dá)Volta和稀疏張量

cod7ce / 1236人閱讀

Apache MXNet v0.12來(lái)了。

今天凌晨,亞馬遜宣布了MXNet新版本,在這個(gè)版本中,MXNet添加了兩個(gè)重要新特性:

支持英偉達(dá)Volta GPU,大幅減少用戶訓(xùn)練和推理神經(jīng)網(wǎng)絡(luò)模型的時(shí)間。

在存儲(chǔ)和計(jì)算效率方面支持稀疏張量(Sparse Tensor),讓用戶通過(guò)稀疏矩陣訓(xùn)練模型。

下面,量子位將分別詳述這兩個(gè)新特性。

Tesla V100 加速卡內(nèi)含 Volta GV100 GPU

支持英偉達(dá)Volta GPU架構(gòu)

MXNet v0.12增加了對(duì)英偉達(dá)Volta V100 GPU的支持,讓用戶訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的速度比在Pascal GPU上快3.5倍。這些運(yùn)算通常用單精度(FP32)實(shí)現(xiàn)高準(zhǔn)確率。

然而,最近的研究顯示,用戶可以用半精度(FP16)達(dá)到相同的準(zhǔn)確率。

Volta GPU架構(gòu)中引入了張量核(Tensor Core),每個(gè)張量核每小時(shí)能處理64次積和熔加運(yùn)算(fused-multiply-add,F(xiàn)MA),每小時(shí)將CUDA每個(gè)核心FLOPS(每秒浮點(diǎn)運(yùn)算)大致翻至四倍。

每個(gè)張量核都執(zhí)行下圖所示的D=AxB+C運(yùn)算,其中A和B是半較精確的矩陣,C和D可以是半或單精度矩陣,從而進(jìn)行混合精度訓(xùn)練。

新混合精度訓(xùn)練可在不降低準(zhǔn)確性的情況下實(shí)現(xiàn)較佳訓(xùn)練性能,神經(jīng)網(wǎng)絡(luò)中大部分層精度為FP16,且只在必要時(shí)用更高精度的數(shù)據(jù)類型。

MXNet利用Volta張量核使用戶輕松用FP16訓(xùn)練模型。舉個(gè)例子,用戶將以下命令選項(xiàng)傳遞到train_imagenet,可在MXNet中啟用FP16 train_imagenet.py腳本。

支持稀疏張量

MXNet v0.12增加了對(duì)稀疏張量的支持,來(lái)有效存儲(chǔ)和計(jì)算大多數(shù)元素為0的張量。

我們熟悉的亞馬遜推薦系統(tǒng)就是基于深度學(xué)習(xí)的推薦引擎,它包含了稀疏矩陣的乘法和加法,其中大多數(shù)元素都是0。

在稀疏矩陣中執(zhí)行萬(wàn)億次矩陣運(yùn)算,與在密集矩陣之間執(zhí)行的方式相同。在密集矩陣的存儲(chǔ)和計(jì)算效率不高,在默認(rèn)密結(jié)構(gòu)中存儲(chǔ)和操作稀疏矩陣,會(huì)導(dǎo)致在不必要的處理上浪費(fèi)內(nèi)存。

為了解決這些問(wèn)題,MXNet開(kāi)始支持稀疏張量,讓用戶在保持存儲(chǔ)和計(jì)算效率的方式下執(zhí)行稀疏矩陣操作,更快地訓(xùn)練深度學(xué)習(xí)模型。MXNet v0.12支持兩種主要的稀疏數(shù)據(jù)格式:壓縮稀疏矩陣(CSR)和行稀疏(RSP)。

CSR格式被優(yōu)化來(lái)表示矩陣中的大量列,其中每行只有幾個(gè)非零元素。經(jīng)過(guò)優(yōu)化的RSP格式用來(lái)表示矩陣中的大量行,其中的大部分行切片都是零。

例如,可以用CSR格式對(duì)推薦引擎輸入數(shù)據(jù)的特征向量進(jìn)行編碼,而RSP格式可在訓(xùn)練期間執(zhí)行稀疏梯度更新。

這個(gè)版本支持大多數(shù)在CPU上常用運(yùn)算符的稀疏操作,比如矩陣點(diǎn)乘積和元素級(jí)運(yùn)算符。在未來(lái)版本中,將增加對(duì)更多運(yùn)算符的稀疏支持。

相關(guān)資料

最后,附官方介紹地址:

https://amazonaws-china.com/cn/blogs/ai/apache-mxnet-release-adds-support-for-new-nvidia-volta-gpus-and-sparse-tensor/

MXNet使用指南:

http://mxnet.incubator.apache.org/get_started/install.html

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4658.html

相關(guān)文章

  • 陳天奇等人提出TVM:深度學(xué)習(xí)自動(dòng)優(yōu)化代碼生成器

    摘要:是由華盛頓大學(xué)在讀博士陳天奇等人提出的深度學(xué)習(xí)自動(dòng)代碼生成方法,去年月機(jī)器之心曾對(duì)其進(jìn)行過(guò)簡(jiǎn)要介紹。目前的堆棧支持多種深度學(xué)習(xí)框架以及主流以及專用深度學(xué)習(xí)加速器。 TVM 是由華盛頓大學(xué)在讀博士陳天奇等人提出的深度學(xué)習(xí)自動(dòng)代碼生成方法,去年 8 月機(jī)器之心曾對(duì)其進(jìn)行過(guò)簡(jiǎn)要介紹。該技術(shù)能自動(dòng)為大多數(shù)計(jì)算硬件生成可部署優(yōu)化代碼,其性能可與當(dāng)前最優(yōu)的供應(yīng)商提供的優(yōu)化計(jì)算庫(kù)相比,且可以適應(yīng)新型專用加...

    raledong 評(píng)論0 收藏0
  • 陳天奇團(tuán)隊(duì)發(fā)布NNVM編譯器,性能優(yōu)于MXNet,李沐撰文介紹

    摘要:亞馬遜和華盛頓大學(xué)今天合作發(fā)布了開(kāi)源的端到端深度學(xué)習(xí)編譯器。項(xiàng)目作者之一陳天奇在微博上這樣介紹這個(gè)編譯器我們今天發(fā)布了基于工具鏈的深度學(xué)習(xí)編譯器。陳天奇團(tuán)隊(duì)對(duì)的性能進(jìn)行了基準(zhǔn)測(cè)試,并與進(jìn)行了比較。 亞馬遜和華盛頓大學(xué)今天合作發(fā)布了開(kāi)源的端到端深度學(xué)習(xí)編譯器NNVM compiler。先提醒一句,NNVM compiler ≠ NNVM。NNVM是華盛頓大學(xué)博士陳天奇等人2016年發(fā)布的模塊化...

    izhuhaodev 評(píng)論0 收藏0
  • 從硬件配置到框架選擇,請(qǐng)以這種姿勢(shì)入坑深度學(xué)習(xí)

    摘要:幸運(yùn)的是,這些正是深度學(xué)習(xí)所需的計(jì)算類型。幾乎可以肯定,英偉達(dá)是目前執(zhí)行深度學(xué)習(xí)任務(wù)較好的選擇。今年夏天,發(fā)布了平臺(tái)提供深度學(xué)習(xí)支持。該工具適用于主流深度學(xué)習(xí)庫(kù)如和。因?yàn)榈暮?jiǎn)潔和強(qiáng)大的軟件包擴(kuò)展體系,它目前是深度學(xué)習(xí)中最常見(jiàn)的語(yǔ)言。 深度學(xué)習(xí)初學(xué)者經(jīng)常會(huì)問(wèn)到這些問(wèn)題:開(kāi)發(fā)深度學(xué)習(xí)系統(tǒng),我們需要什么樣的計(jì)算機(jī)?為什么絕大多數(shù)人會(huì)推薦英偉達(dá) GPU?對(duì)于初學(xué)者而言哪種深度學(xué)習(xí)框架是較好的?如何將...

    marek 評(píng)論0 收藏0
  • 做深度學(xué)習(xí)這么多年還不會(huì)挑GPU?這兒有份選購(gòu)全攻略

    摘要:深度學(xué)習(xí)是一個(gè)對(duì)算力要求很高的領(lǐng)域。這一早期優(yōu)勢(shì)與英偉達(dá)強(qiáng)大的社區(qū)支持相結(jié)合,迅速增加了社區(qū)的規(guī)模。對(duì)他們的深度學(xué)習(xí)軟件投入很少,因此不能指望英偉達(dá)和之間的軟件差距將在未來(lái)縮小。 深度學(xué)習(xí)是一個(gè)對(duì)算力要求很高的領(lǐng)域。GPU的選擇將從根本上決定你的深度學(xué)習(xí)體驗(yàn)。一個(gè)好的GPU可以讓你快速獲得實(shí)踐經(jīng)驗(yàn),而這些經(jīng)驗(yàn)是正是建立專業(yè)知識(shí)的關(guān)鍵。如果沒(méi)有這種快速的反饋,你會(huì)花費(fèi)過(guò)多時(shí)間,從錯(cuò)誤中吸取教訓(xùn)...

    JohnLui 評(píng)論0 收藏0
  • 進(jìn)軍云服務(wù)器市場(chǎng):高通發(fā)布Cloud AI 100推理芯片

    摘要:據(jù)悉,在舊金山舉行的高通活動(dòng)上,這家巨頭正式宣布進(jìn)軍云計(jì)算市場(chǎng),并發(fā)布了面向人工智能推理計(jì)算的專用加速器。沒(méi)有任何預(yù)告,繼谷歌亞馬遜和英偉達(dá)之后,高通成為第四家成功在云端推理上正式發(fā)布芯片的公司。提起高通,業(yè)內(nèi)對(duì)它的直接印象就是移動(dòng)芯片領(lǐng)域的巨頭。一直以來(lái),高通也確實(shí)只在移動(dòng)通信領(lǐng)域深耕,并從芯片到底層平臺(tái)一攬子都包下。而現(xiàn)在,高通冷不丁扔出的一枚炸彈也將一改以往大家對(duì)它的認(rèn)知。據(jù)悉,在舊金...

    codercao 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<