摘要:科技評論絕大部分論文都是為了解決問題,深鑒科技的這篇論文的核心靈感來自于哪里一直以來,深度學習計算遇到的較大瓶頸其實是帶寬問題,而非計算本身。由于深度學習里的特征表示本身就是稀疏的,因此我們做一個直接的剪枝壓縮來減少帶寬的使用。
近日,深鑒科技的 ESE 語音識別引擎的論文在 FPGA 2017 獲得了的較佳論文 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA。該項工作聚焦于使用 LSTM 進行語音識別的場景,結(jié)合深度壓縮以及專用處理器架構(gòu),使得經(jīng)過壓縮的網(wǎng)絡(luò)在 FPGA 能夠?qū)崿F(xiàn)超越 Pascal Titan X GPU 一個數(shù)量級的能效比。論文中所描述的 ESE 語音識別引擎也是深鑒科技 RNN 處理器產(chǎn)品的原型。
深鑒科技是一家具備神經(jīng)網(wǎng)絡(luò)壓縮編譯工具鏈、深度學習處理器 DPU 設(shè)計、FPGA 開發(fā)與系統(tǒng)優(yōu)化等技術(shù)能力的初創(chuàng)公司,團隊一系列研究工作發(fā)表于 NIPS 2015,ICLR 2016,F(xiàn)PGA 2016,ISCA 2016,NIPS 2016 Workshop,F(xiàn)PGA 2017 等較高級會議,并與 DeepMind 共同獲得 ICLR 2016 較佳論文、NIPS 2016 Workshop on EMDNN 較佳論文提名。
深鑒科技于 2016 年 1 月設(shè)計出一套基于 DPU 的一整套深度學習硬件解決方案,包括 DPU 的芯片架構(gòu)、DPU 編譯器、硬件模塊(訂制的 PCB 板)三部分。
針對 FPGA 2017 較佳論文以及深鑒科技,AI科技評論采訪了深鑒科技 CEO 姚頌。
AI科技評論:絕大部分論文都是為了解決問題,深鑒科技的這篇論文的核心靈感來自于哪里?
一直以來,深度學習計算遇到的較大瓶頸其實是帶寬問題,而非計算本身。為了實現(xiàn)高效的深度學習計算,我們必須在軟硬件同時進行優(yōu)化,不僅算法上壓縮到更小,硬件上更要支持好壓縮后的深度學習算法。
為了解決帶寬問題,GPU 的 Memory 從 DDR3 ,DDR4,一直升級到了 HBM。同時,GPU 也從支持雙精度與單精度,即 64 個比特或者 32 個比特表示一個參數(shù),升級至支持 Int8 型變量,也即 8 比特表示一個變量。
我們一直在思考如何更優(yōu)化和高效地解決帶寬問題,韓松(該論文的第一作者,深鑒科技聯(lián)合創(chuàng)始人)的研究方向是使用稀疏化方式讓深度學習更快、更準、更輕量,該方式的優(yōu)點是降低了帶寬的需求。由于深度學習里的特征表示本身就是稀疏的,因此我們做一個直接的剪枝壓縮來減少帶寬的使用。韓松之前做過一項名為 EIE (Efficient Inference Engine)的研究并發(fā)表在 ISCA 2016 ,該項研究主要針對于卷積神經(jīng)網(wǎng)絡(luò)里的全連接層,但并不能適應(yīng)語音識別這樣的復(fù)雜場景。因此在結(jié)合實際應(yīng)用后,我們設(shè)計出一套更為實用化的 ESE 架構(gòu),針對語音識別和 RNN 做了非常多的修改,并且將它實用化了。
這些就是該論文靈感的來源。
AI科技評論:這篇論文主要在哪些方面有著較大的突破?
在軟件和硬件兩個方面均有著一定的突破。
軟件方面,我們提出了 Load-balance-aware pruning。除了在純算法上追求壓縮率,還會考慮到最終要多核運行并行加速的時候不同核心之間的負載均衡,這種加速差其實屬于最優(yōu)的方式。
在硬件方面,我剛才也提到韓松有一篇論文叫做 EIE 只能運行卷積神經(jīng)網(wǎng)絡(luò)的 FC 層。我們考慮到 RNN 的狀態(tài)機會整體非常復(fù)雜,因為里面會有非常多個矩陣要運轉(zhuǎn),不僅要支持多路用戶,還有里面的非線性函數(shù)都有非常大的區(qū)別。所以說在整個硬件架構(gòu)過程做了一個重新設(shè)計,能夠支持多路用戶,也能夠支持 RNN,如 LSTM 內(nèi)部多個矩陣的運轉(zhuǎn)。這樣整個系統(tǒng)運轉(zhuǎn)的(速度)都是高得多的一個架構(gòu)。
AI科技評論:這個具體從幾方面提高了它在語音識別中的效率?
現(xiàn)在 ESE 是我們語音識別方案的基礎(chǔ),我們在實際產(chǎn)品上做了不少改進。該方案的核心就是它能支持在大規(guī)模用戶的情況下大幅降低延遲。我們知道,GPU 的較大問題是如果要具備非常好的性能,那就需要堆很多路的 batch。那么其實的 latency 是變長的。那我們能夠?qū)?latency 部分相對于個高端的 GPU 壓下來幾倍。于用戶而言,對方體驗到的延遲也要短的多,體驗就會更好。
其次,由于大規(guī)模的云計算對于成本、功耗是非常敏感的,這種情況下,我們的方案會明顯使得功耗降低,對整個運行成本有著不錯的影響。
另一方面,如果把延遲降低,其意味著這些實際使用的算法可以變得更加復(fù)雜。如 LSTM 原來是三層,現(xiàn)在我可以把它變?yōu)槲鍖樱踔廖业难舆t會變得更低,使得語音識別的較精確度得到更進一步提升。
AI科技評論:詳細講講 Deep Compression 和 ESE 的原理與作用。
人類大腦其實是非常稀疏的,每個神經(jīng)元能連接其他神經(jīng)元的數(shù)量有限,而 Deep Compression 也正是受到了人類大腦的啟發(fā)。做這項工作時我們發(fā)現(xiàn)了一些人工神經(jīng)網(wǎng)絡(luò)里對結(jié)果影響不重要的權(quán)重,針對這該問題的最簡單做法就是如果這個權(quán)重的值小于某個閾值,我就把它去掉,只保留值較大權(quán)重對應(yīng)的這些連接。
而 ESE 的原理則更多是我們設(shè)計了一個非常高效的稀疏矩陣乘的 Kernel 。在此之上,我們又設(shè)計了一套完整的調(diào)度機制,能夠?qū)?RNN 中 LSTM 的多個矩陣進行各高效調(diào)度。并且能夠支持在不同矩陣高速調(diào)度時形成一個流水線。在運算當前矩陣的時候調(diào)用下一個矩陣來片上運行,并且能保持每個權(quán)重就每個矩陣的權(quán)重在片上存儲待的時間足夠長。這樣做既可節(jié)省整個帶寬的需求,也可加快運算速度。
AI科技評論:剛也提到大腦的激活是非常稀疏的,當深度學習的模型越來越大,那對模型參數(shù)有什么其他的壓縮辦法嗎?
韓松提出的 Deep Compression 其實就屬于模型壓縮很核心的方法。通常大家會用一些啟發(fā)式的算法去發(fā)現(xiàn)里面不重要的權(quán)重,并將它去除,然后再使用數(shù)據(jù)來進行 re-train 時能夠把它的較精確度恢復(fù)起來。其中的閾值,做 re-train 時權(quán)重增長的幅度均可用來作為啟發(fā)式算法的判別準則。
由于神經(jīng)網(wǎng)絡(luò)中的特征表示比較稀疏,所以這樣一種非規(guī)則稀疏模型壓縮效果往往比大家設(shè)計一個小一些的模型效果更好:直接砍 channel 數(shù)量,或者一些數(shù)學上的分解方式。
其他模型壓縮的方法有 SVD、Winograd 分解、binary network 等,但相比而言 Deep Compression 整體的性價比會更高。
AI科技評論:如何有效結(jié)合 Compressing CNN 和 Intepretating CNN 發(fā)揮它們的勢能?
對于可解釋性 CNN 我們暫時還沒有研究。對于壓縮后的 CNN 較大好處是性能會明顯變高,可把模型尺寸直接壓縮十倍,權(quán)重數(shù)量可直接砍掉三倍,這也意味著性能直接以三倍的單位往上乘。與此同時,我們用于存儲帶寬讀取的延遲會降低 10 倍,所以整體性能都有著非常大的提升。這也是我們一直提倡要在軟件和硬件上協(xié)同來進行加速的原因。
AI科技評論:英偉達提供的是芯片+解決方案,地平線機器人的產(chǎn)品定位是芯片+算法+解決方案+設(shè)備。深鑒科技的產(chǎn)品定位是什么?與地平線、寒武紀有哪些不同?
地平線余老師、楊銘師兄、黃暢師兄算法與軟件背景比較深厚,軟硬件團隊整體實力非常強,因此他們可能會從系統(tǒng)的角度來提供一個完整的功能級產(chǎn)品,包括算法上的優(yōu)化。
寒武紀的兩位陳老師在 CPU等芯片領(lǐng)域有很多的積累,更多會強調(diào)在芯片層面的優(yōu)化。而深鑒科技則是做軟硬協(xié)同加速,側(cè)重于 FPGA,我們希望用一些取巧的手段,比如在算法上用 Deep Compression 來做壓縮,然后在硬件上針對于壓縮后的神經(jīng)網(wǎng)絡(luò)做一些專用的處理架構(gòu)。
我們最核心的服務(wù)其實是一個平臺:平臺的底層是我們的 DPU 架構(gòu),往上是由編譯器以及我們整個 Deep Compression 構(gòu)成的開發(fā)環(huán)境,這樣用戶可以用我們的環(huán)境來開發(fā)自己的算法與應(yīng)用,在深鑒科技的 DPU 平臺上運行,從這一點來說有些類似于英偉達。
AI科技評論:最近阿里、騰訊均推出的高性能異構(gòu)計算基礎(chǔ)設(shè)施 FPGA 云服務(wù)器,這對行業(yè)的影響有哪些?
其實這方面業(yè)界最領(lǐng)先的是 AWS。在 2016 年 12 月的 AWS 發(fā)布會上,亞馬遜公開了AWS上新的 F1 instance :他們將 Xilinx 的 FPGA 放在了云服務(wù)中,大家可通過這樣的開發(fā)環(huán)境在云中使用 FPGA。而騰訊和阿里那也是受到亞馬遜這個項目的影響才開始把 FPGA 部署到他的云服務(wù)中。
我們知道 FPGA 的優(yōu)點在于,進行 Inference 計算能相比于 GPU 更加高效,因此云端的業(yè)務(wù)大家可用 GPU 訓練,而 FPGA 做 Inference 。AWS、騰訊、阿里都為業(yè)界帶了一個好頭,其影響類似于當時 TPU 問世后極大地促進 FPGA 在深度學習領(lǐng)域的相關(guān)研究,同時也滲透到了產(chǎn)品開發(fā)和整個行業(yè)的方方面面。我們也已經(jīng)顯著地看到各大公司受到啟發(fā),開始越來越關(guān)注在能效、效率問題,而不是簡簡單單地滿足我有這樣的一個 AI 服務(wù)。
AI科技評論:你們與客戶的具體合作形式是什么樣的?分別講講你們?yōu)榱愣戎强?、川大智能以及搜狗提供了哪些服?wù)?
前面的話,其實我已經(jīng)提到我們公司的定位:我們是一個平臺的提供者。所以對于一系列具有自己深度學習算法研發(fā)能力的公司,我們會提供我們的 DPU平臺,以及編譯器與壓縮這樣一套開發(fā)環(huán)境,供大家能夠在此基礎(chǔ)上搭建自己的算法以及解決方案。而對于像無人機行業(yè)的客戶,我們會提供針對于這個行業(yè)的算法、軟件、硬件一體的解決方案,能夠讓大家直接集成來打造自己的應(yīng)用。
AI科技評論:就您所知,近一兩年海內(nèi)外有哪些與深鑒相似的公司和產(chǎn)品?在玩家逐漸變多的大環(huán)境下,如何保證自己處于有利地位?
AI 是整個半導(dǎo)體行業(yè)大家看到非常大的一個新增長點,所以從傳統(tǒng)半導(dǎo)體行業(yè)出來,不管是做創(chuàng)業(yè)公司也好,還是要做往這個方向業(yè)務(wù)轉(zhuǎn)型的大公司,確實非常多。
深鑒科技之前提到,傳統(tǒng)并行計算的老工業(yè)經(jīng)驗并不一定能夠很好的覆蓋掉 AI 上面計算的事情,我們始終堅持一個觀點認為帶寬一定是一個最核心的問題需要解決。而傳統(tǒng)堆帶寬的方式一定會在造價和將來實際物理帶寬層面遇到一些瓶頸,所以深鑒科技把軟和硬結(jié)合在一起來做。先在軟件上做壓縮,然后在硬件上針對壓縮的神經(jīng)網(wǎng)絡(luò)做一個專用體系結(jié)構(gòu)的優(yōu)化。
目前在這條技術(shù)路線上的公司還非常之少,但陸續(xù)開始有公司注入跟進這個領(lǐng)域。而我們進入很早,積累了非常多的 insight,如 FPGA2016 會議上提出來的基于嵌入式 FPGA 的 CNN 處理器方案、量化方案,已經(jīng)被諸多公司f ollow,今年 FPGA2017 會議大家都在 CNN 處理方案上進行小幅優(yōu)化之時,我們已經(jīng)走向了 LSTM。我們希望借由這樣的先發(fā)優(yōu)勢,能夠圍繞稀疏化的處理思路,從算法、軟件、硬件協(xié)同設(shè)計多個方面逐漸建立起隱形的行業(yè)標準。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4478.html
摘要:在一個數(shù)據(jù)分析任務(wù)和任務(wù)混合的環(huán)境中,大數(shù)據(jù)分析任務(wù)也會消耗很多網(wǎng)絡(luò)帶寬如操作,網(wǎng)絡(luò)延遲會更加嚴重。本地更新更新更新目前,我們已經(jīng)復(fù)現(xiàn)中的實驗結(jié)果,實現(xiàn)了多機并行的線性加速。 王佐,天數(shù)潤科深度學習平臺負責人,曾擔任 Intel亞太研發(fā)中心Team Leader,萬達人工智能研究院資深研究員,長期從事分布式計算系統(tǒng)研究,在大規(guī)模分布式機器學習系統(tǒng)架構(gòu)、機器學習算法設(shè)計和應(yīng)用方面有深厚積累。在...
摘要:本文內(nèi)容節(jié)選自由主辦的第七屆,北京一流科技有限公司首席科學家袁進輝老師木分享的讓簡單且強大深度學習引擎背后的技術(shù)實踐實錄。年創(chuàng)立北京一流科技有限公司,致力于打造分布式深度學習平臺的事實工業(yè)標準。 本文內(nèi)容節(jié)選自由msup主辦的第七屆TOP100summit,北京一流科技有限公司首席科學家袁進輝(老師木)分享的《讓AI簡單且強大:深度學習引擎OneFlow背后的技術(shù)實踐》實錄。 北京一流...
摘要:本文將告訴你如何用最省錢的方式,來搭建一個高性能深度學習系統(tǒng)。 由于深度學習的計算相當密集,所以有人覺得必須要購買一個多核快速CPU, 也有人認為購買快速CPU可能是種浪費。?那么,這兩種觀點哪個是對的? 其實,在建立深度學習系統(tǒng)時,最糟糕的事情之一就是把錢浪費在不必要的硬件上。 本文將告訴你如何用最省錢的方式,來搭建一個高性能深度學習系統(tǒng)。當初,在我研究并行深度學習過程中,我構(gòu)建了一個GP...
閱讀 692·2021-11-25 09:43
閱讀 2964·2021-11-24 10:20
閱讀 1016·2021-10-27 14:18
閱讀 1088·2021-09-08 09:36
閱讀 3398·2021-07-29 14:49
閱讀 1795·2019-08-30 14:07
閱讀 2946·2019-08-29 16:52
閱讀 3057·2019-08-29 13:12