現(xiàn)代羅塞塔石碑：微軟提出深度學(xué)習(xí)框架的通用語言

ckllj 發(fā)布于2019-04-25 18:26 / 2555人閱讀

摘要：完整版地址我們的想法是創(chuàng)建一個深度學(xué)習(xí)框架的羅塞塔石碑假設(shè)你很了解某個深度學(xué)習(xí)框架，你就可以幫助別人使用任何框架。我們的目標(biāo)是創(chuàng)建深度學(xué)習(xí)框架的羅塞塔石碑，使數(shù)據(jù)科學(xué)家能夠在不同框架之間輕松運用專業(yè)知識。

repo 1.0 完整版 GitHub 地址：https://github.com/ilkarman/DeepLearningFrameworks

我們的想法是創(chuàng)建一個深度學(xué)習(xí)框架的羅塞塔石碑（Rosetta Stone）：假設(shè)你很了解某個深度學(xué)習(xí)框架，你就可以幫助別人使用任何框架。你可能會遇到論文中代碼是另一個框架或整個流程都使用另一種語言的情況。相比在自己喜歡的框架中從頭開始編寫模型，使用「外來」語言會更容易。

感謝 CNTK、Pytorch、Chainer、Caffe2 和 Knet 團隊，以及來自開源社區(qū)的所有人在過去幾個月為該 repo 所做的貢獻。

我們的目標(biāo)是：

1. 創(chuàng)建深度學(xué)習(xí)框架的羅塞塔石碑，使數(shù)據(jù)科學(xué)家能夠在不同框架之間輕松運用專業(yè)知識。

2. 使用的高級 API 優(yōu)化 GPU 代碼。

3. 創(chuàng)建一個 GPU 對比的常用設(shè)置（可能是 CUDA 版本和精度）。

4. 創(chuàng)建一個跨語言對比的常用設(shè)置（Python、Julia、R）。

5. 驗證自己搭建框架的預(yù)期性能。

6. 實現(xiàn)不同開源社區(qū)之間的合作。

基準深度學(xué)習(xí)框架的結(jié)果

下面我們來看一種 CNN 模型的訓(xùn)練時間和結(jié)果（預(yù)訓(xùn)練的 ResNet50 模型執(zhí)行特征提?。约耙环N RNN 模型的訓(xùn)練時間。

訓(xùn)練時間（s）：CNN（VGG-style，32bit）在 CIFAR-10 上執(zhí)行圖像識別任務(wù)

該模型的輸入是標(biāo)準 CIFAR-10 數(shù)據(jù)集（包含 5 萬張訓(xùn)練圖像和 1 萬張測試圖像），均勻地分成 10 個類別。將每張 32×32 圖像處理為形狀 (3, 32, 32) 的張量，像素強度從 0-255 重新調(diào)整至 0-1。

處理 1000 張圖像的平均時間（s）：ResNet-50——特征提取

加載預(yù)訓(xùn)練 ResNet-50 模型在末端 (7, 7) 平均池化之后裁斷，輸出 2048D 向量。其可插入 softmax 層或另一個分類器（如 boosted tree）來執(zhí)行遷移學(xué)習(xí)?？紤]到熱啟動，這種僅前向傳播至 avg_pool 層的操作有時間限制。注意：批量大小保持常量，但是增加 GPU 內(nèi)存可帶來更好的性能提升（GPU 內(nèi)存越多越好）。

訓(xùn)練時間（s）：RNN (GRU) 在 IMDB 數(shù)據(jù)集上執(zhí)行情感分析任務(wù)

模型輸入為標(biāo)準 IMDB 電影評論數(shù)據(jù)集（包含 25k 訓(xùn)練評論和 25k 測試評論），均勻地分為兩類（積極／消極）。使用 https://github.com/keras-team/keras/blob/master/keras/datasets/imdb.py 中的方法進行處理，起始字符設(shè)置為 1，集外詞（OOV，本次訓(xùn)練使用的詞匯表包括 3 萬單詞）設(shè)置為 2，這樣單詞索引從 3. Zero 開始，通過填充或截斷使每條評論固定為 150 詞。

*表示截至本文發(fā)布時尚未實現(xiàn)。歡迎社區(qū)補充。

經(jīng)驗教訓(xùn)

1. 使用自動調(diào)參模式：大部分框架使用 cuDNN 的 cudnnFindConvolutionForwardAlgorithm() 來運行窮舉搜索，優(yōu)化在固定大小圖像上前向卷積所使用的算法。這通常是默認的設(shè)置，但是一些框架可能需要一個 flag，例如?

torch.backends.cudnn.benchmark=True。

2. 盡可能多地使用 cuDNN：常用的 RNN（如基礎(chǔ) GRU/LSTM）通?？梢哉{(diào)用 cuDNN 封裝器來加速，即用 cudnn_rnn.CudnnGRU() 代替 rnn.GRUCell()。缺點是稍后在 CPU 上運行推斷時難度可能會增加。

3. 匹配形狀：在 cuDNN 上運行時，為 CNN 匹配 NCHW 的原始 channel-ordering、為 RNN 匹配 TNC 可以削減浪費在重塑（reshape）操作上的時間，直接進行矩陣乘法。

4. 原始生成器：使用框架的原始生成器，增強和預(yù)處理（例如 shuffling）通過多線程進行異步處理，實現(xiàn)加速。

5. 對于推斷，確保指定的 flag 可以保存被計算的非必要梯度，以及 batch-norm 和 drop-out 等層得到合理使用。

當(dāng)我們從頭開始創(chuàng)建該 repo 的時候，為了確保在不同框架之間使用的是相同的模型，并以最優(yōu)化的方式運行，我們使用了很多技巧。過去幾個月里，這些框架的改版之快令人驚訝，框架的更新導(dǎo)致很多在 2017 年末學(xué)會的優(yōu)化方法如今已然過時。

例如，以 TF 為后端的 Keras 擁有 channel-ordering 硬編碼作為 channels-last（對于 cuDNN 不是最優(yōu)的），因此指定 channels-first 意味著它將在每個批次（batch）之后重塑到硬編碼值，從而極大降低訓(xùn)練速度?，F(xiàn)在以 TF 為后端的 keras 支持原始 channels-first ordering。之前，TensorFlow 可以通過指定一個 flag 來使用 Winograd 算法用于卷積運算，然而現(xiàn)在這種方法不再有用。你可以在repo的早期版本（https://github.com/ilkarman/DeepLearningFrameworks/tree/cb6792043a330a16f36a5310d3856f23f7a45662）中查看其中的最初學(xué)習(xí)階段部分。

通過在不同的框架中完成端到端解決方案，我們可以用多種方式對比框架。由于相同的模型架構(gòu)和數(shù)據(jù)被用于每一個框架，因此得到的模型準確率在各個框架之間是非常相似的（實際上，這正是我們測試代碼以確保相同的模型在不同框架上運行的一種方法）。此外，該 notebook 的開發(fā)目的是為了使框架之間的對比更加容易，而模型加速則不是必要的。

當(dāng)然，該項目的目的是使用速度和推斷時間等指標(biāo)來對比不同的框架，而不是為了評估某個框架的整體性能，因為它忽略了一些重要的對比，例如：幫助和支持、提供預(yù)訓(xùn)練模型、自定義層和架構(gòu)、數(shù)據(jù)加載器、調(diào)試、支持的不同平臺、分布式訓(xùn)練等。該 repo 只是為了展示如何在不同的框架上構(gòu)建相同的網(wǎng)絡(luò)，并對這些特定的網(wǎng)絡(luò)評估性能。

深度學(xué)習(xí)框架的「旅行伴侶」

深度學(xué)習(xí)社區(qū)流行著很多種深度學(xué)習(xí)框架，該項目可以幫助 AI 開發(fā)者和數(shù)據(jù)科學(xué)家應(yīng)用不同的深度學(xué)習(xí)框架。一個相關(guān)的工作是 Open Neural Network Exchange（ONNX），這是一個在框架間遷移深度學(xué)習(xí)模型的開源互通標(biāo)準。當(dāng)在一個框架中進行開發(fā)工作，但希望轉(zhuǎn)換到另一個框架中評估模型的時候，ONNX 很有用。類似地，MMdnn 是一組幫助用戶直接在不同框架之間轉(zhuǎn)換的工具（以及對模型架構(gòu)進行可視化）。

深度學(xué)習(xí)框架的「旅行伴侶」工具如 ONNX 和 MMdnn 就像是自動化的機器翻譯系統(tǒng)。相比之下，我們今天發(fā)布的 repo 1.0 完整版更像是深度學(xué)習(xí)框架的羅塞塔石碑，在不同的框架上端到端地展示模型構(gòu)建過程。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器深度學(xué)習(xí)的提出深度學(xué)習(xí)誰提出的深度學(xué)習(xí)提出誰提出深度學(xué)習(xí)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4754.html

發(fā)表評論

登陸后可評論

0條評論

ckllj

男|高級講師

我要關(guān)注我要私信

TA的文章

LINUX：程序和進程

閱讀 2345·2021-11-23 09:51
短信驗證碼平臺有哪些比較好用？需從這3個方面來決定！

閱讀 1151·2021-11-22 13:52
[11.11]CMIVPS年度大促VPS主機5折,香港大帶寬/直連線路月付3.5美元起

閱讀 3622·2021-11-10 11:35
Tmwhost，澳門VPS(7.5折優(yōu)惠)，$5.62/月，1核/1G內(nèi)存/50G Raid5 SS

閱讀 1202·2021-10-25 09:47
Resultful API的攔截（過濾器——Filter）

閱讀 3007·2021-09-07 09:58
前端每日實戰(zhàn)：145# 視頻演示如何用純 CSS 創(chuàng)作一個電源開關(guān)控件

閱讀 1071·2019-08-30 15:54
PHP基于Thinkphp5的砍價活動相關(guān)設(shè)計

閱讀 2828·2019-08-29 14:21
CSS形狀之border-radius

閱讀 3037·2019-08-29 12:20

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

現(xiàn)代羅塞塔石碑：微軟提出深度學(xué)習(xí)框架的通用語言

相關(guān)文章

**【10大深度學(xué)習(xí)框架實驗對比】Caffe2最優(yōu)，TensorFlow排第6**

**陳天奇等人提出TVM：深度學(xué)習(xí)自動優(yōu)化代碼生成器**

**CMU、NYU與FAIR共同提出GLoMo：遷移學(xué)習(xí)新范式**

**機器學(xué)習(xí)和深度學(xué)習(xí)引用量最高的20篇論文（2014-2017）**

發(fā)表評論

0條評論

ckllj

男|高級講師

TA的文章

LINUX：程序和進程

短信驗證碼平臺有哪些比較好用？需從這3個方面來決定！

[11.11]CMIVPS年度大促VPS主機5折,香港大帶寬/直連線路月付3.5美元起

Tmwhost，澳門VPS(7.5折優(yōu)惠)，$5.62/月，1核/1G內(nèi)存/50G Raid5 SS

Resultful API的攔截（過濾器——Filter）

前端每日實戰(zhàn)：145# 視頻演示如何用純 CSS 創(chuàng)作一個電源開關(guān)控件

PHP基于Thinkphp5的砍價活動相關(guān)設(shè)計

CSS形狀之border-radius

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

現(xiàn)代羅塞塔石碑：微軟提出深度學(xué)習(xí)框架的通用語言

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！