該放棄正在墮落的“RNN和LSTM”了

Zoom 發(fā)布于2019-06-26 18:25 / 2217人閱讀

摘要：通過(guò)兩年的發(fā)展，今天我們可以肯定地說(shuō)放棄你的和有證據(jù)表明，谷歌，，等企業(yè)正在越來(lái)越多地使用基于注意力模型的網(wǎng)絡(luò)。

摘要：隨著技術(shù)的發(fā)展，作者覺(jué)得是時(shí)候放棄LSTM和RNN了！到底為什么呢？來(lái)看看吧～

遞歸神經(jīng)網(wǎng)絡(luò)（RNN），長(zhǎng)期短期記憶（LSTM）及其所有變體：

現(xiàn)在是放棄它們的時(shí)候了！

在2014年，LSTM和RNN重新復(fù)活。我們都閱讀過(guò)Colah的博客和Karpathy對(duì)RNN的贊賞。但那個(gè)時(shí)候我們都很年輕，沒(méi)有經(jīng)驗(yàn)。隨著這幾年的技術(shù)的發(fā)展，我們才慢慢發(fā)現(xiàn)序列變換（seq2seq）才是真正求解序列學(xué)習(xí)的真正模型，它在語(yǔ)音識(shí)別領(lǐng)域創(chuàng)造了驚人的結(jié)果，例如：蘋果的Siri，Cortana，谷歌語(yǔ)音助手Alexa。還有就是我們的機(jī)器翻譯，它可以將文檔翻譯成不同的語(yǔ)言。

然后在接下來(lái)的15年、16年，ResNet和Attention模型出現(xiàn)了。人們可以更好地認(rèn)識(shí)到了LSTM其實(shí)就是一種巧妙的搭橋技術(shù)。注意，MLP網(wǎng)絡(luò)可以通過(guò)平均受上下文向量影響的網(wǎng)絡(luò)來(lái)取代，這個(gè)下文再談。

通過(guò)兩年的發(fā)展，今天我們可以肯定地說(shuō)：“放棄你的RNN和LSTM！”

有證據(jù)表明，谷歌，F(xiàn)acebook，Salesforce等企業(yè)正在越來(lái)越多地使用基于注意力模型的網(wǎng)絡(luò)。所有的這些公司已經(jīng)取代了RNN和基于注意力模型的變體，而這只是一個(gè)開(kāi)始，因?yàn)镽NN相較于注意力模型需要更多的資源來(lái)訓(xùn)練。

為什么？

RNN和LSTM及其變體主要是隨著時(shí)間的推移使用順序處理，請(qǐng)參閱下圖中的水平箭頭：

這個(gè)箭頭意味著，數(shù)據(jù)必須在到達(dá)當(dāng)前處理單元之前順序穿過(guò)所有單元，這意味著它可以很容易出現(xiàn)梯度消失的問(wèn)題。

為此，人們推出了LSTM模塊，它可以被看作是多個(gè)開(kāi)關(guān)門的組合，ResNet就延續(xù)了它的設(shè)計(jì)，它可以繞過(guò)某些單元從而記住更長(zhǎng)的時(shí)間步驟。因此，LSTM可以消除一些梯度消失的問(wèn)題。

但并不是完全解決，正如你從上圖所看到的那樣。盡管如此，我們?nèi)匀挥幸粭l從過(guò)去的單元到現(xiàn)在的單元的順序路徑，實(shí)際上，現(xiàn)在這些路徑甚至變得更加復(fù)雜，因?yàn)槁窂缴线€連接了加如記憶的分支和遺忘記憶的分支。毫無(wú)疑問(wèn)，LSTM和GRU及變體能夠?qū)W習(xí)大量長(zhǎng)期的信息！但他們只是可以記住100s的序列，而不是1000s或10000s甚至更多。

并且RNN的另一個(gè)問(wèn)題是需要消耗大量的計(jì)算資源。在云中運(yùn)行這些模型也需要大量資源，并且由于語(yǔ)音到文本的需求正在迅速增長(zhǎng)，云能提供的計(jì)算能力慢慢的滿足不了它了。

我們應(yīng)該怎么辦？

如果要避免順序處理，那么我們可以找到“向前預(yù)測(cè)”或更好的“向后回顧”的計(jì)算單元，因?yàn)槲覀兲幚淼臄?shù)據(jù)大部分都是實(shí)時(shí)因果數(shù)據(jù)。但在翻譯句子或分析錄制的視頻時(shí)并非如此，例如，我們擁有所有數(shù)據(jù)并且可以為其帶來(lái)更多時(shí)間。這樣的向前回溯/后向回顧單元就是神經(jīng)注意力模塊，我們此前在此解釋。

為了結(jié)合多個(gè)神經(jīng)注意力模塊，我們可以使用來(lái)自下圖所示的“ 層級(jí)神經(jīng)注意力編碼器”：

觀察過(guò)去信息的更好方式是使用注意力模塊將過(guò)去編碼向量匯總到上下文向量 C_t。請(qǐng)注意上面有一個(gè)層級(jí)注意力模塊，它和層級(jí)神經(jīng)網(wǎng)絡(luò)非常相似。這也類似于下面的備注3中的時(shí)間卷積網(wǎng)絡(luò)（TCN）。

在層級(jí)神經(jīng)注意力編碼器中，多層級(jí)關(guān)注可以查看最近過(guò)去的一小部分，比如說(shuō)100個(gè)向量，而上面的層可以查看這100個(gè)關(guān)注模塊，有效地整合100 x 100個(gè)向量的信息。這將層級(jí)神經(jīng)注意力編碼器的能力擴(kuò)展到10,000個(gè)以前的向量。但更重要的是查看表示向量傳播到網(wǎng)絡(luò)輸出所需的路徑長(zhǎng)度：在分層網(wǎng)絡(luò)中，它與log（N）成正比，其中N是層次結(jié)構(gòu)層數(shù)。這與RNN需要做的T步驟形成對(duì)比，其中T是要記住的序列的最大長(zhǎng)度，并且T >> N。

簡(jiǎn)單的說(shuō)就是回顧更多的歷史信息并預(yù)測(cè)未來(lái)！

這種架構(gòu)跟神經(jīng)圖靈機(jī)很相似，但可以讓神經(jīng)網(wǎng)絡(luò)通過(guò)注意力決定從內(nèi)存中讀出什么。這意味著一個(gè)實(shí)際的神經(jīng)網(wǎng)絡(luò)將決定哪些過(guò)去的向量對(duì)未來(lái)決策的重要性。

但是存儲(chǔ)到內(nèi)存呢？上述體系結(jié)構(gòu)將所有先前的表示存儲(chǔ)在內(nèi)存中，這可能是相當(dāng)?shù)托У?。我們可以做的是添加另一個(gè)單元來(lái)防止相關(guān)數(shù)據(jù)被存儲(chǔ)。例如，不存儲(chǔ)與以前存儲(chǔ)的向量太相似的向量。最好的辦法就是讓應(yīng)用程序指導(dǎo)哪些載體應(yīng)該保存或不保存，這是當(dāng)前研究的重點(diǎn)。

我們看到很多公司仍然使用RNN / LSTM來(lái)完成自然語(yǔ)言處理和語(yǔ)音識(shí)別等任務(wù)模型，但很多人不知道這些網(wǎng)絡(luò)如此低效且無(wú)法擴(kuò)展。

總結(jié)：

關(guān)于訓(xùn)練RNN / LSTM：RNN和LSTM很難訓(xùn)練，因?yàn)樗鼈冃枰獌?nèi)存、帶寬、這些因素限制計(jì)算的效率，這對(duì)于硬件設(shè)計(jì)師來(lái)說(shuō)是最糟糕的噩夢(mèng)，并且最終限制了神經(jīng)網(wǎng)絡(luò)解決方案的適用性。簡(jiǎn)而言之，每個(gè)LSTM單元需要的4個(gè)線性層（MLP層）在每個(gè)序列時(shí)間步上運(yùn)行。線性層需要計(jì)算大量的內(nèi)存帶寬，事實(shí)上，他們并不能經(jīng)常使用很多計(jì)算單元，因?yàn)橄到y(tǒng)沒(méi)有足夠的內(nèi)存帶寬來(lái)提供計(jì)算單元。添加更多計(jì)算單元很容易，但很難增加更多的內(nèi)存帶寬。因此，RNN / LSTM和變體與硬件加速不太匹配，我之前曾討論過(guò)這個(gè)問(wèn)題在這里和這里。

注：

注1：層級(jí)神經(jīng)注意力與WaveNet中的想法類似。但是我們不使用卷積神經(jīng)網(wǎng)絡(luò)，而是使用層級(jí)神經(jīng)注意力模型。

注2：層級(jí)神經(jīng)注意力模型也可以是雙向的。

注3：這是一篇比較CNN和RNN的論文。時(shí)間卷積網(wǎng)絡(luò)（TCN）“在不同范圍的任務(wù)和數(shù)據(jù)集上優(yōu)于經(jīng)典的經(jīng)常性網(wǎng)絡(luò)，如LSTM，同時(shí)展示更大的有效內(nèi)存?！?/p>

本文由@阿里云云棲社區(qū)組織翻譯。

文章原標(biāo)題《the-fall-of-rnn-lstm》，

譯者：虎說(shuō)八道，審校：袁虎。

詳情請(qǐng)閱讀原文

GPU云服務(wù)器云服務(wù)器阿里云服務(wù)器正在重啟卡住了購(gòu)買了域名之后該干嘛墮落當(dāng)前正在瀏覽的網(wǎng)址

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/19742.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Zoom

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

【力扣】40. 組合總和 II

閱讀 2627·2021-11-12 10:36
PacificRack秋季促銷：洛杉磯VPS $18.00/年起，采用SSD硬盤，支持Linux/W

閱讀 2267·2021-08-23 09:47
把富文本的 ? 轉(zhuǎn)為</br>標(biāo)簽

閱讀 1689·2019-08-30 15:44
前端iPhone X適配總結(jié)

閱讀 1411·2019-08-30 14:10
小白面試之制作一個(gè)本地個(gè)人信息網(wǎng)頁(yè)

閱讀 2249·2019-08-29 16:52
面向web前端及node開(kāi)發(fā)人員的vim配置

閱讀 2346·2019-08-29 16:40
移動(dòng)前端開(kāi)發(fā)經(jīng)驗(yàn)小結(jié)

閱讀 1594·2019-08-29 16:17
玩轉(zhuǎn)3D Swiper性感秀之思路分析總結(jié)

閱讀 2415·2019-08-26 13:21

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

該放棄正在墮落的“RNN和LSTM”了

相關(guān)文章

RNN和LSTM弱！爆！了！注意力模型才是王道

神經(jīng)網(wǎng)絡(luò)基礎(chǔ)

Deep Learning 相關(guān)庫(kù)簡(jiǎn)介

深度神經(jīng)網(wǎng)絡(luò)的壓縮和正則化

深度學(xué)習(xí)在2017年的十大發(fā)展趨勢(shì)及預(yù)測(cè)

發(fā)表評(píng)論

0條評(píng)論

Zoom

男|高級(jí)講師

TA的文章

【力扣】40. 組合總和 II

PacificRack秋季促銷：洛杉磯VPS $18.00/年起，采用SSD硬盤，支持Linux/W

把富文本的 ? 轉(zhuǎn)為</br>標(biāo)簽

前端iPhone X適配總結(jié)

小白面試之制作一個(gè)本地個(gè)人信息網(wǎng)頁(yè)

面向web前端及node開(kāi)發(fā)人員的vim配置

移動(dòng)前端開(kāi)發(fā)經(jīng)驗(yàn)小結(jié)

玩轉(zhuǎn)3D Swiper性感秀之思路分析總結(jié)

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

該放棄正在墮落的“RNN和LSTM”了

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！