MATLAB更新R2017b：轉(zhuǎn)換CUDA代碼極大提升推斷速度

Corwien 發(fā)布于2019-04-25 18:19 / 2108人閱讀

摘要：陳建平說訓(xùn)練是十分重要的，尤其是對關(guān)注算法本身的研究者。代碼生成其實在中也十分簡單，陳建平不僅利用車道線識別模型向我們演示了如何使用生成高效的代碼，同時還展示了在脫離環(huán)境下運行代碼進行推斷的效果。

近日，Mathworks 推出了包含 MATLAB 和 Simulink 產(chǎn)品系列的 Release 2017b（R2017b），該版本大大加強了 MATLAB 對深度學(xué)習(xí)的支持，并簡化了工程師、研究人員及其他領(lǐng)域?qū)＜以O(shè)計、訓(xùn)練和部署模型的方式。該更新版本從數(shù)據(jù)標(biāo)注、模型搭建、訓(xùn)練與推斷還有最后的模型部署方面完整地支持深度學(xué)習(xí)開發(fā)流程。此外，MATLAB 這次更新較大的亮點是新組件 GPU Coder，它能自動將深度學(xué)習(xí)模型代碼轉(zhuǎn)換為 NVIDIA GPU 的 CUDA 代碼，GPU Coder 轉(zhuǎn)換后的 CUDA 代碼可以脫離 MATLAB 環(huán)境直接高效地執(zhí)行推斷。經(jīng) MATLAB 內(nèi)部基準(zhǔn)測試顯示，GPU Coder 產(chǎn)生的 CUDA 代碼，比 TensorFlow 的性能高 7 倍，比 Caffe2 的性能高 4.5 倍。

對此，機器之心采訪了 MathWorks 中國資深應(yīng)用工程師陳建平，陳建平從 MATLAB 中的數(shù)據(jù)標(biāo)注開始沿著深度學(xué)習(xí)模型的開發(fā)、訓(xùn)練、調(diào)試到最后使用 GPU Coder 部署高性能模型，為我們介紹了 MATLAB 這一次更新針對深度學(xué)習(xí)所做的努力。本文將沿著 MATLAB 深度學(xué)習(xí)開發(fā)過程簡要介紹這次更新的要點，同時重點向大家展示能自動將模型轉(zhuǎn)化為 CUDA 代碼的 GPU Coder 模塊。

數(shù)據(jù)標(biāo)注

對于計算機視覺來說，Computer Vision System Toolbox 中的 Ground Truth Labeler app 可提供一種交互式的方法半自動地標(biāo)注一系列圖像。除了目標(biāo)檢測與定位外，該工具箱現(xiàn)在還支持語義分割，它能對圖像中的像素區(qū)域進行分類。陳建平說：「我們現(xiàn)在的標(biāo)注工具可以直接半自動地完成任務(wù)，它可以像 Photoshop 中的魔棒工具一樣自動標(biāo)注出像素層級的類別，我們選中圖片后工具會自動將對象摳出來。在我們完成初始化的圖像語義分割后，工具會使用自動化的手段把后續(xù)行駛過程中的其它元素都摳出來。因為中間和后續(xù)過程都是以機器為主導(dǎo)完成的，所以我們只需要在前期使用少量的人力就能完成整個標(biāo)注過程?！?/p>

這種半自動方法確實可以大大提升標(biāo)注的效率，特別是標(biāo)注車道邊界線和汽車邊界框等視覺系統(tǒng)目標(biāo)。在這種自動標(biāo)注框架下，算法可以快速地完成整個數(shù)據(jù)集的標(biāo)注，而隨后我們只需要少量的監(jiān)督與驗證就能構(gòu)建一個較精確的數(shù)據(jù)集。如下所示，MATLAB 文檔向我們展示了如何創(chuàng)建車道線自動標(biāo)注。

我們可以使用不同的算法，如能自動檢測車道線特征的 Auto Lane Detection、使用聚合通道特征（Aggregate Channel Features/ACF）檢測車輛的 ACF Vehicle Detector 和使用 Kanade-Lucas_Tomasi（KLT）在小間隔內(nèi)追蹤一個或多個 ROI 的算法等。如果我們選擇自動算法，那么接下來設(shè)置 ROI、較大車道數(shù)、車道線寬度等參數(shù)后就可以直接運行自動標(biāo)注。若視頻經(jīng)過人工微調(diào)與校驗，并達到不錯的效果，我們就可以選擇「Accept」完成標(biāo)注任務(wù)。

模型構(gòu)建

在模型構(gòu)建方面，Neural Network Toolbox 增加了對復(fù)雜架構(gòu)的支持，包括有向無環(huán)圖（DAG）和長短期記憶（LSTM）網(wǎng)絡(luò)等，并提供對 GoogLeNet 等流行的預(yù)訓(xùn)練模型的訪問方式。陳建平表示：「其實 MATLAB 在 2016 年的時候就已經(jīng)支持一些深度學(xué)習(xí)模型，而現(xiàn)在不僅支持 VGGNet 和 GoogleNet 等流行的預(yù)訓(xùn)練模型，同時還支持使用 Caffe Model Importer 直接從 Caffe 中導(dǎo)入?！?/p>

因為我們可以直接從 Caffe Model Zoo 中導(dǎo)入各種優(yōu)秀與前沿的模型，所以 MATLAB 在模型方面可以提供廣泛的支持。但直接從 Caffe 中導(dǎo)入模型又會產(chǎn)生一個疑惑，即如果我們在 Python 環(huán)境下使用 Caffe 構(gòu)建了一個模型，那么導(dǎo)入 MATLAB 是不是需要轉(zhuǎn)寫代碼，會不會需要做一些額外的工作以完成導(dǎo)入？對此，陳建平解答到：「假設(shè)我們使用 Python 和 Caffe 完成了一個模型，并保存以 Caffe 格式，那么 Caffe Model Importer 會直接從保存的 Caffe 格式中讀取模型。在這個過程中，Caffe 并不需要為 MATLAB 做額外的工作，所有的轉(zhuǎn)換結(jié)果都是 MATLAB 完成的?！?/p>

在導(dǎo)入模型后，我們可以直接使用類似于 Keras 的高級 API 修改模型或重建模型。下面將簡要介紹如何導(dǎo)入預(yù)訓(xùn)練 AlexNet，并修改完成遷移學(xué)習(xí)。

首先我們需要導(dǎo)入 AlexNet，如果 Neural Network Toolbox 中沒有安裝 AlexNet，那么軟件會提供下載地址。

net?

?alexnet

;

net

Layers

上面的語句將導(dǎo)入 AlexNet，并如下所示展示整個 CNN 的神經(jīng)網(wǎng)絡(luò)架構(gòu)。其中 MATLAB 會展示所有的操作層，每一層都給出了層級名、操作類型和層級參數(shù)等關(guān)鍵信息。例如第二個操作層『conv1』表示一個卷積運算，該運算采用了 96 個卷積核，每一個卷積核的尺寸為 11×11×3、步幅為 4，該卷積運算采用了 padding。

這種描述不僅有利于我們了解整個神經(jīng)網(wǎng)絡(luò)的架構(gòu)，同時還有助于調(diào)整架構(gòu)以匹配特定的任務(wù)。由上可知最后的全連接層、softmax 層和分類輸出層是與 ImageNet 任務(wù)相關(guān)聯(lián)的配置，因此我們需要去除這三個層級并重新構(gòu)建與當(dāng)前任務(wù)相關(guān)聯(lián)的層級。MATLAB 可以十分簡潔地實現(xiàn)這一過程：

layersTransfer?

?net

Layers

(

end

);

numClasses?

?numel

(

categories

(

trainingImages

Labels

))

layers?

[

?layersTransfer

?fullyConnectedLayer

(

numClasses

"WeightLearnRateFactor"

"BiasLearnRateFactor"

)

?softmaxLayer

?classificationLayer

];

由上面的代碼可知我們只提取了 AlexNet 預(yù)訓(xùn)練模型的前 22 層，而后依次新建了全連接層、softmax 層和分類輸出層。完成整個層級重構(gòu)后，剩下的就只需使用以下代碼訓(xùn)練新的模型。其中 trainingImages 為當(dāng)前任務(wù)的訓(xùn)練樣本、layers 為前面修正的層級，而 options 是我們設(shè)置的一組訓(xùn)練參數(shù)，包括優(yōu)化算法、最小批量大小、初始化學(xué)習(xí)率、繪制訓(xùn)練過程和驗證集配置等設(shè)定。

netTransfer?

?trainNetwork

(

trainingImages

layers

options

);

由上，我們發(fā)現(xiàn) MATLAB 的深度學(xué)習(xí)代碼非常簡潔，調(diào)用高級 API 能快速完成模型的搭建。陳建平說：「MATLAB 上的高級 API 是一個完整的體系，它們完全是針對深度學(xué)習(xí)而設(shè)計的。當(dāng)然我們還是會用基礎(chǔ)的運算，因為 MATLAB 這么多年的累積可以充分體現(xiàn)在基礎(chǔ)運算上，但是深度學(xué)習(xí)這一套高級 API 確實是新設(shè)計的?！?/p>

其實不只是 AlexNet，很多 Caffe 模型都能夠?qū)氲?MATLAB。那么，MATLAB 為什么會選擇 Caffe 作為對接的深度學(xué)習(xí)框架，而不是近來十分流行的 TensorFlow？

陳建平解釋說：「MATLAB 選擇 Caffe 其實是有很多歷史原因的，因為 Caffe 在 CNN 上做得非常好，傳統(tǒng)上它在圖像方面就是一個非常優(yōu)秀的框架，從這個角度我們優(yōu)先選擇了 Caffe 作為支持的深度學(xué)習(xí)框架。當(dāng)然，MATLAB 在很快也會有針對 TensorFlow 的導(dǎo)入功能。」

訓(xùn)練與推斷

對于模型訓(xùn)練來說，最重要的可能就是能支持大規(guī)模分布式訓(xùn)練。因為目前的深度模型都有非常多的參數(shù)和層級，每一次正向或反向傳播都擁有海量的矩陣運算，所以這就要求 MATLAB 能高效地執(zhí)行并行運算。當(dāng)然，我們知道 MATLAB 在并行運算上有十分雄厚的累積，那么在硬件支持上，目前其支持 CPU 和 GPU 之間的自動選擇、單塊 GPU、本地或計算機集群上的多塊 GPU。此外，由于近來采用大批量 SGD 進行分布式訓(xùn)練的方法取得了十分優(yōu)秀的結(jié)果，我們可以使用 MATLAB 調(diào)用整個計算機集群上的 GPU，并使用層級對應(yīng)的適應(yīng)率縮放（Layer-wise Adaptive Rate Scaling/LARS）那樣的技術(shù)快速完成整個模型的訓(xùn)練。

在模型訓(xùn)練中，另外一個比較重要的部分就是可視化，我們需要可視化整個訓(xùn)練過程中的模型準(zhǔn)確度、訓(xùn)練損失、驗證損失、收斂情況等信息。當(dāng)然 MATLAB 一直以來就十分重視可視化，在上例執(zhí)行遷移學(xué)習(xí)時，我們也能得到整個訓(xùn)練過程的可視化信息。如下所示，上部分為訓(xùn)練準(zhǔn)確度和驗證準(zhǔn)確度隨迭代數(shù)的變化趨勢，下部分為訓(xùn)練損失和驗證損失隨迭代數(shù)的變化趨勢，該遷移學(xué)習(xí)基本上到第 3 個 epoch 就已經(jīng)收斂。

陳建平說：「訓(xùn)練是十分重要的，尤其是對關(guān)注算法本身的研究者。但如果我們考慮模型部署，那么也許推斷會變得更加重要?！?/p>

對于推斷來說，新產(chǎn)品 GPU Coder 可自動將深度學(xué)習(xí)模型轉(zhuǎn)換為 NVIDIA GPU 的 CUDA 代碼。內(nèi)部基準(zhǔn)測試顯示，GPU Coder 產(chǎn)生的 CUDA 代碼，比 TensorFlow 的性能提高 7 倍，比 Caffe2 的性能提高 4.5 倍。

陳建平說：「其實我們將 MATLAB 和其它框架做了一些基準(zhǔn)對比，MATLAB 在測試中比 TensorFlow 快 2.5 倍，比 Caffe 快 40% 左右。而我們還有一種方法讓模型的推斷速度變得更快，也就是使用 GPU Coder 將模型轉(zhuǎn)化為脫離 MATLAB 環(huán)境的 CUDA 代碼。我們已經(jīng)在一臺 GPU 工作站上測試 GPU Coder 的效果，基本上它要比 TensorFlow 的性能高 7 倍，比 Caffe2 的性能高 4.5 倍。實際上在轉(zhuǎn)換代碼時我們剔除了很多額外的交互過程。其實 GPU Coder 對產(chǎn)品部署是十分有用的，因為 CUDA 代碼對需要考慮很多限制的嵌入式系統(tǒng)十分重要，例如 CUDA 代碼能高效地控制嵌入式系統(tǒng)的功耗?！?/p>

下圖展示了內(nèi)部基準(zhǔn)測試的結(jié)果：

該測試使用 TitanXP GPU 和 Intel(R) Xeon(R) CPU E5-1650 v4 @ 3.60GHz 對 AlexNet 的推斷性能進行了內(nèi)部基準(zhǔn)測試。使用的軟件版本或框架是 MATLAB(R2017b)、TensorFlow(1.2.0) 和 Caffe2(0.8.1)。每個軟件或框架都是使用 GPU 加速版來進行基準(zhǔn)測試，所有測試均在 Windows 10 上運行。

模型部署

在 MATLAB 部署模型其實也很簡單，MATLAB 很早就支持生成獨立于其開發(fā)環(huán)境的其它語言，比如利用 MATLAB Coder 可以將 MATLAB 代碼轉(zhuǎn)換為 C 或 C++代碼。而該版提供了新的工具 GPU Coder，我們能利用它將生成的 CUDA 代碼部署到 GPU 中并進行實時處理，這一點對于應(yīng)用場景是極其重要的。

GPU 代碼生成其實在 MATLAB 中也十分簡單，陳建平不僅利用車道線識別模型向我們演示了如何使用 GPU Coder 生成高效的 CUDA 代碼，同時還展示了在脫離 MATLAB 環(huán)境下運行 CUDA 代碼進行推斷的效果。

陳建平說：「本質(zhì)上車道線識別模型是通過遷移學(xué)習(xí)完成的，只不過在模型訓(xùn)練完成后，我們既不會直接在 CPU 上運行模型并執(zhí)行推斷，也不會單純地通過 MATLAB 環(huán)境編譯推斷過程。因此我們可以通過 GPU Coder 和幾行語句基于已訓(xùn)練的模型來產(chǎn)生 CUDA 代碼。我們需要告訴 GPU Coder 各種信息，例如我們需要產(chǎn)生的外接包裝是 C++、目標(biāo)是產(chǎn)生一個 CUDA 庫文件等。因為 C++ 需要定義嚴(yán)格的數(shù)據(jù)類型，所以在我們輸入?yún)?shù)的信息后，Coder 會遞歸地推導(dǎo)輸入所涉及的所有數(shù)據(jù)類型。最后 GPU Coder 會根據(jù)這些信息產(chǎn)生 CUDA 代碼?！?/p>

左圖為GPU Coder app，右圖展示了生成的CUDA代碼

如果 GPU Coder 能將模型轉(zhuǎn)化為 CUDA 代碼，那么它到底是如何將一個串行設(shè)計的模型轉(zhuǎn)換為并行的 CUDA 代碼？

陳建平解釋說：「推斷過程本質(zhì)上是一個并行過程，而推斷的每一步我們可以認(rèn)為是一個獨立循環(huán)體。而現(xiàn)在我們有辦法將這種獨立循環(huán)體展開成大量的 CUDA 并發(fā)線程，這一過程都是自動完成的。其實 MATLAB 有工具能判斷 For 循環(huán)是不是獨立的，如果是的話它就會將這些 For 循環(huán)自動并行化。所以 CUDA 其實就是一種超多線程的并發(fā)模型，而只有這種并行化才能充分利用 GPU 的計算資源以加快推斷速度?！?/p>

最后，MATLAB 會自動完成代碼的并行化，并轉(zhuǎn)化為高效的 CUDA 代碼，因此我們能脫離 MATLAB 環(huán)境來執(zhí)行整個推斷過程。

結(jié)語

從數(shù)據(jù)源、模型構(gòu)建、訓(xùn)練與推斷到最終產(chǎn)品的部署，R2017B 補齊了整個開發(fā)鏈條。MathWorks 的 MATLAB 市場營銷總監(jiān) David Rich 表示，「借助 R2017b，工程和系統(tǒng)集成團隊可以將 MATLAB 拓展用于深度學(xué)習(xí)，以更好地保持對整個設(shè)計過程的控制，并更快地實現(xiàn)更高質(zhì)量的設(shè)計。他們可以使用預(yù)訓(xùn)練網(wǎng)絡(luò)，協(xié)作開發(fā)代碼和模型，然后部署到 GPU 和嵌入式設(shè)備。使用 MATLAB 可以改進結(jié)果質(zhì)量，同時通過自動化地真值標(biāo)注 App 來縮短模型開發(fā)時間?！?/p>歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器提升關(guān)機速度提升vps速度 cdn提升網(wǎng)頁速度 java提升查詢速度

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4646.html

發(fā)表評論

登陸后可評論

0條評論

Corwien

男|高級講師

我要關(guān)注我要私信

TA的文章

tensorflow

閱讀 2570·2023-04-25 18:13
【Microsoft Azure 的1024種玩法】四. 利用Azure Virtual machi

閱讀 793·2021-11-22 12:10
Sedo交易榜：VYNX.com超13萬元成交！crydo.com約10萬元易主！

閱讀 2983·2021-11-22 11:57
[黑五]HostKvm香港招牌VPS永久6折,充$50送$5

閱讀 2148·2021-11-19 11:26
如何登錄到虛擬主機-虛擬主機怎么登陸圖解？

閱讀 2182·2021-09-22 15:40
云安卓ARM開發(fā)板方案

閱讀 1473·2021-09-03 10:28
使用 nuxt+iview-admin+koa2 開發(fā)項目

閱讀 2711·2019-08-30 15:53
一道面試題引發(fā)的思考

閱讀 1958·2019-08-30 15:44

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

MATLAB更新R2017b：轉(zhuǎn)換CUDA代碼極大提升推斷速度

相關(guān)文章

加強深度學(xué)習(xí)能力以簡化設(shè)計、訓(xùn)練和部署模型

現(xiàn)代羅塞塔石碑：微軟提出深度學(xué)習(xí)框架的通用語言

YOLO v3有了PaddlePaddle實現(xiàn) | 代碼+預(yù)訓(xùn)練模型

**初學(xué)者怎么選擇神經(jīng)網(wǎng)絡(luò)環(huán)境？對比MATLAB、Torch和TensorFlow**

發(fā)表評論

0條評論

Corwien

男|高級講師

TA的文章

tensorflow

【Microsoft Azure 的1024種玩法】四. 利用Azure Virtual machi

Sedo交易榜：VYNX.com超13萬元成交！crydo.com約10萬元易主！

[黑五]HostKvm香港招牌VPS永久6折,充$50送$5

如何登錄到虛擬主機-虛擬主機怎么登陸圖解？

云安卓ARM開發(fā)板方案

使用 nuxt+iview-admin+koa2 開發(fā)項目

一道面試題引發(fā)的思考

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

MATLAB更新R2017b：轉(zhuǎn)換CUDA代碼極大提升推斷速度

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！