亞馬遜發(fā)布新版MXNet：支持英偉達(dá)Volta和稀疏張量

cod7ce 發(fā)布于2019-04-25 18:20 / 1236人閱讀

Apache MXNet v0.12來(lái)了。

今天凌晨，亞馬遜宣布了MXNet新版本，在這個(gè)版本中，MXNet添加了兩個(gè)重要新特性：

支持英偉達(dá)Volta GPU，大幅減少用戶訓(xùn)練和推理神經(jīng)網(wǎng)絡(luò)模型的時(shí)間。

在存儲(chǔ)和計(jì)算效率方面支持稀疏張量（Sparse Tensor），讓用戶通過(guò)稀疏矩陣訓(xùn)練模型。

下面，量子位將分別詳述這兩個(gè)新特性。

Tesla V100 加速卡內(nèi)含 Volta GV100 GPU

支持英偉達(dá)Volta GPU架構(gòu)

MXNet v0.12增加了對(duì)英偉達(dá)Volta V100 GPU的支持，讓用戶訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的速度比在Pascal GPU上快3.5倍。這些運(yùn)算通常用單精度（FP32）實(shí)現(xiàn)高準(zhǔn)確率。

然而，最近的研究顯示，用戶可以用半精度（FP16）達(dá)到相同的準(zhǔn)確率。

Volta GPU架構(gòu)中引入了張量核（Tensor Core），每個(gè)張量核每小時(shí)能處理64次積和熔加運(yùn)算（fused-multiply-add，F(xiàn)MA），每小時(shí)將CUDA每個(gè)核心FLOPS（每秒浮點(diǎn)運(yùn)算）大致翻至四倍。

每個(gè)張量核都執(zhí)行下圖所示的D=AxB+C運(yùn)算，其中A和B是半較精確的矩陣，C和D可以是半或單精度矩陣，從而進(jìn)行混合精度訓(xùn)練。

新混合精度訓(xùn)練可在不降低準(zhǔn)確性的情況下實(shí)現(xiàn)較佳訓(xùn)練性能，神經(jīng)網(wǎng)絡(luò)中大部分層精度為FP16，且只在必要時(shí)用更高精度的數(shù)據(jù)類型。

MXNet利用Volta張量核使用戶輕松用FP16訓(xùn)練模型。舉個(gè)例子，用戶將以下命令選項(xiàng)傳遞到train_imagenet，可在MXNet中啟用FP16 train_imagenet.py腳本。

支持稀疏張量

MXNet v0.12增加了對(duì)稀疏張量的支持，來(lái)有效存儲(chǔ)和計(jì)算大多數(shù)元素為0的張量。

我們熟悉的亞馬遜推薦系統(tǒng)就是基于深度學(xué)習(xí)的推薦引擎，它包含了稀疏矩陣的乘法和加法，其中大多數(shù)元素都是0。

在稀疏矩陣中執(zhí)行萬(wàn)億次矩陣運(yùn)算，與在密集矩陣之間執(zhí)行的方式相同。在密集矩陣的存儲(chǔ)和計(jì)算效率不高，在默認(rèn)密結(jié)構(gòu)中存儲(chǔ)和操作稀疏矩陣，會(huì)導(dǎo)致在不必要的處理上浪費(fèi)內(nèi)存。

為了解決這些問(wèn)題，MXNet開(kāi)始支持稀疏張量，讓用戶在保持存儲(chǔ)和計(jì)算效率的方式下執(zhí)行稀疏矩陣操作，更快地訓(xùn)練深度學(xué)習(xí)模型。MXNet v0.12支持兩種主要的稀疏數(shù)據(jù)格式：壓縮稀疏矩陣(CSR)和行稀疏(RSP)。

CSR格式被優(yōu)化來(lái)表示矩陣中的大量列，其中每行只有幾個(gè)非零元素。經(jīng)過(guò)優(yōu)化的RSP格式用來(lái)表示矩陣中的大量行，其中的大部分行切片都是零。

例如，可以用CSR格式對(duì)推薦引擎輸入數(shù)據(jù)的特征向量進(jìn)行編碼，而RSP格式可在訓(xùn)練期間執(zhí)行稀疏梯度更新。

這個(gè)版本支持大多數(shù)在CPU上常用運(yùn)算符的稀疏操作，比如矩陣點(diǎn)乘積和元素級(jí)運(yùn)算符。在未來(lái)版本中，將增加對(duì)更多運(yùn)算符的稀疏支持。

相關(guān)資料

最后，附官方介紹地址：

https://amazonaws-china.com/cn/blogs/ai/apache-mxnet-release-adds-support-for-new-nvidia-volta-gpus-and-sparse-tensor/

MXNet使用指南：

http://mxnet.incubator.apache.org/get_started/install.html

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器英偉達(dá) 英偉達(dá)webrtc 英偉達(dá)服務(wù)器顯卡英偉達(dá)云服務(wù)器

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4658.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

cod7ce

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow簡(jiǎn)單程序

閱讀 1513·2023-04-26 01:28
SSL證書價(jià)格一年多少錢？從哪里獲得SSL證書？

閱讀 3327·2021-11-22 13:53
爬取淘寶上4000條月餅數(shù)據(jù)，制作了一個(gè)酷炫的可視化大屏！

閱讀 1443·2021-09-04 16:40
css盒模型

閱讀 3199·2019-08-30 15:55
移動(dòng)端用下拉刷新的方式實(shí)現(xiàn)上拉加載

閱讀 2692·2019-08-30 15:54
float,clear,BFC理解

閱讀 2499·2019-08-30 13:47
【Hello CSS】第五章-CSS的選擇器與函數(shù)

閱讀 3380·2019-08-30 11:27
幾種原生js輪播圖

閱讀 1158·2019-08-29 13:21

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

亞馬遜發(fā)布新版MXNet：支持英偉達(dá)Volta和稀疏張量

相關(guān)文章

陳天奇等人提出TVM：深度學(xué)習(xí)自動(dòng)優(yōu)化代碼生成器

**陳天奇團(tuán)隊(duì)發(fā)布NNVM編譯器，性能優(yōu)于MXNet，李沐撰文介紹**

從硬件配置到框架選擇，請(qǐng)以這種姿勢(shì)入坑深度學(xué)習(xí)

做深度學(xué)習(xí)這么多年還不會(huì)挑GPU？這兒有份選購(gòu)全攻略

**進(jìn)軍云服務(wù)器市場(chǎng)：高通發(fā)布Cloud AI 100推理芯片**

發(fā)表評(píng)論

0條評(píng)論

cod7ce

男|高級(jí)講師

TA的文章

tensorflow簡(jiǎn)單程序

SSL證書價(jià)格一年多少錢？從哪里獲得SSL證書？

爬取淘寶上4000條月餅數(shù)據(jù)，制作了一個(gè)酷炫的可視化大屏！

css盒模型

移動(dòng)端用下拉刷新的方式實(shí)現(xiàn)上拉加載

float,clear,BFC理解

【Hello CSS】第五章-CSS的選擇器與函數(shù)

幾種原生js輪播圖

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

亞馬遜發(fā)布新版MXNet：支持英偉達(dá)Volta和稀疏張量

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！