摘要:通過(guò)兩年的發(fā)展,今天我們可以肯定地說(shuō)放棄你的和有證據(jù)表明,谷歌,,等企業(yè)正在越來(lái)越多地使用基于注意力模型的網(wǎng)絡(luò)。
摘要: 隨著技術(shù)的發(fā)展,作者覺(jué)得是時(shí)候放棄LSTM和RNN了!到底為什么呢?來(lái)看看吧~
遞歸神經(jīng)網(wǎng)絡(luò)(RNN),長(zhǎng)期短期記憶(LSTM)及其所有變體:
現(xiàn)在是放棄它們的時(shí)候了!
在2014年,LSTM和RNN重新復(fù)活。我們都閱讀過(guò)Colah的博客和Karpathy對(duì)RNN的贊賞。但那個(gè)時(shí)候我們都很年輕,沒(méi)有經(jīng)驗(yàn)。隨著這幾年的技術(shù)的發(fā)展,我們才慢慢發(fā)現(xiàn)序列變換(seq2seq)才是真正求解序列學(xué)習(xí)的真正模型,它在語(yǔ)音識(shí)別領(lǐng)域創(chuàng)造了驚人的結(jié)果,例如:蘋果的Siri,Cortana,谷歌語(yǔ)音助手Alexa。還有就是我們的機(jī)器翻譯,它可以將文檔翻譯成不同的語(yǔ)言。
然后在接下來(lái)的15年、16年,ResNet和Attention模型出現(xiàn)了。人們可以更好地認(rèn)識(shí)到了LSTM其實(shí)就是一種巧妙的搭橋技術(shù)。注意,MLP網(wǎng)絡(luò)可以通過(guò)平均受上下文向量影響的網(wǎng)絡(luò)來(lái)取代,這個(gè)下文再談。
通過(guò)兩年的發(fā)展,今天我們可以肯定地說(shuō):“放棄你的RNN和LSTM!”
有證據(jù)表明,谷歌,F(xiàn)acebook,Salesforce等企業(yè)正在越來(lái)越多地使用基于注意力模型的網(wǎng)絡(luò)。所有的這些公司已經(jīng)取代了RNN和基于注意力模型的變體,而這只是一個(gè)開(kāi)始,因?yàn)镽NN相較于注意力模型需要更多的資源來(lái)訓(xùn)練。
為什么?RNN和LSTM及其變體主要是隨著時(shí)間的推移使用順序處理,請(qǐng)參閱下圖中的水平箭頭:
這個(gè)箭頭意味著,數(shù)據(jù)必須在到達(dá)當(dāng)前處理單元之前順序穿過(guò)所有單元,這意味著它可以很容易出現(xiàn)梯度消失的問(wèn)題。
為此,人們推出了LSTM模塊,它可以被看作是多個(gè)開(kāi)關(guān)門的組合,ResNet就延續(xù)了它的設(shè)計(jì),它可以繞過(guò)某些單元從而記住更長(zhǎng)的時(shí)間步驟。因此,LSTM可以消除一些梯度消失的問(wèn)題。
但并不是完全解決,正如你從上圖所看到的那樣。盡管如此,我們?nèi)匀挥幸粭l從過(guò)去的單元到現(xiàn)在的單元的順序路徑,實(shí)際上,現(xiàn)在這些路徑甚至變得更加復(fù)雜,因?yàn)槁窂缴线€連接了加如記憶的分支和遺忘記憶的分支。毫無(wú)疑問(wèn),LSTM和GRU及變體能夠?qū)W習(xí)大量長(zhǎng)期的信息!但他們只是可以記住100s的序列,而不是1000s或10000s甚至更多。
并且RNN的另一個(gè)問(wèn)題是需要消耗大量的計(jì)算資源。在云中運(yùn)行這些模型也需要大量資源,并且由于語(yǔ)音到文本的需求正在迅速增長(zhǎng),云能提供的計(jì)算能力慢慢的滿足不了它了。
我們應(yīng)該怎么辦?如果要避免順序處理,那么我們可以找到“向前預(yù)測(cè)”或更好的“向后回顧”的計(jì)算單元,因?yàn)槲覀兲幚淼臄?shù)據(jù)大部分都是實(shí)時(shí)因果數(shù)據(jù)。但在翻譯句子或分析錄制的視頻時(shí)并非如此,例如,我們擁有所有數(shù)據(jù)并且可以為其帶來(lái)更多時(shí)間。這樣的向前回溯/后向回顧單元就是神經(jīng)注意力模塊,我們此前在此解釋。
為了結(jié)合多個(gè)神經(jīng)注意力模塊,我們可以使用來(lái)自下圖所示的“ 層級(jí)神經(jīng)注意力編碼器”:
觀察過(guò)去信息的更好方式是使用注意力模塊將過(guò)去編碼向量匯總到上下文向量 C_t。請(qǐng)注意上面有一個(gè)層級(jí)注意力模塊,它和層級(jí)神經(jīng)網(wǎng)絡(luò)非常相似。這也類似于下面的備注3中的時(shí)間卷積網(wǎng)絡(luò)(TCN)。
在層級(jí)神經(jīng)注意力編碼器中,多層級(jí)關(guān)注可以查看最近過(guò)去的一小部分,比如說(shuō)100個(gè)向量,而上面的層可以查看這100個(gè)關(guān)注模塊,有效地整合100 x 100個(gè)向量的信息。這將層級(jí)神經(jīng)注意力編碼器的能力擴(kuò)展到10,000個(gè)以前的向量。但更重要的是查看表示向量傳播到網(wǎng)絡(luò)輸出所需的路徑長(zhǎng)度:在分層網(wǎng)絡(luò)中,它與log(N)成正比,其中N是層次結(jié)構(gòu)層數(shù)。這與RNN需要做的T步驟形成對(duì)比,其中T是要記住的序列的最大長(zhǎng)度,并且T >> N。
簡(jiǎn)單的說(shuō)就是回顧更多的歷史信息并預(yù)測(cè)未來(lái)!
這種架構(gòu)跟神經(jīng)圖靈機(jī)很相似,但可以讓神經(jīng)網(wǎng)絡(luò)通過(guò)注意力決定從內(nèi)存中讀出什么。這意味著一個(gè)實(shí)際的神經(jīng)網(wǎng)絡(luò)將決定哪些過(guò)去的向量對(duì)未來(lái)決策的重要性。
但是存儲(chǔ)到內(nèi)存呢?上述體系結(jié)構(gòu)將所有先前的表示存儲(chǔ)在內(nèi)存中,這可能是相當(dāng)?shù)托У?。我們可以做的是添加另一個(gè)單元來(lái)防止相關(guān)數(shù)據(jù)被存儲(chǔ)。例如,不存儲(chǔ)與以前存儲(chǔ)的向量太相似的向量。最好的辦法就是讓應(yīng)用程序指導(dǎo)哪些載體應(yīng)該保存或不保存,這是當(dāng)前研究的重點(diǎn)。
我們看到很多公司仍然使用RNN / LSTM來(lái)完成自然語(yǔ)言處理和語(yǔ)音識(shí)別等任務(wù)模型,但很多人不知道這些網(wǎng)絡(luò)如此低效且無(wú)法擴(kuò)展。
總結(jié):關(guān)于訓(xùn)練RNN / LSTM:RNN和LSTM很難訓(xùn)練,因?yàn)樗鼈冃枰獌?nèi)存、帶寬、這些因素限制計(jì)算的效率,這對(duì)于硬件設(shè)計(jì)師來(lái)說(shuō)是最糟糕的噩夢(mèng),并且最終限制了神經(jīng)網(wǎng)絡(luò)解決方案的適用性。簡(jiǎn)而言之,每個(gè)LSTM單元需要的4個(gè)線性層(MLP層)在每個(gè)序列時(shí)間步上運(yùn)行。線性層需要計(jì)算大量的內(nèi)存帶寬,事實(shí)上,他們并不能經(jīng)常使用很多計(jì)算單元,因?yàn)橄到y(tǒng)沒(méi)有足夠的內(nèi)存帶寬來(lái)提供計(jì)算單元。添加更多計(jì)算單元很容易,但很難增加更多的內(nèi)存帶寬。因此,RNN / LSTM和變體與硬件加速不太匹配,我之前曾討論過(guò)這個(gè)問(wèn)題在這里和這里。
注:
注1:層級(jí)神經(jīng)注意力與WaveNet中的想法類似。但是我們不使用卷積神經(jīng)網(wǎng)絡(luò),而是使用層級(jí)神經(jīng)注意力模型。
注2:層級(jí)神經(jīng)注意力模型也可以是雙向的。
注3:這是一篇比較CNN和RNN的論文。時(shí)間卷積網(wǎng)絡(luò)(TCN)“在不同范圍的任務(wù)和數(shù)據(jù)集上優(yōu)于經(jīng)典的經(jīng)常性網(wǎng)絡(luò),如LSTM,同時(shí)展示更大的有效內(nèi)存?!?/p>
本文由@阿里云云棲社區(qū)組織翻譯。
文章原標(biāo)題《the-fall-of-rnn-lstm》,
譯者:虎說(shuō)八道,審校:袁虎。
詳情請(qǐng)閱讀原文
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19742.html
摘要:之后,注意力模型出現(xiàn)了。等企業(yè)越來(lái)越多地使用了基于注意力模型的網(wǎng)絡(luò)。所有這些企業(yè)已經(jīng)將及其變種替換為基于注意力的模型,而這僅僅是個(gè)開(kāi)始。比起基于注意力的模型,需要更多的資源來(lái)訓(xùn)練和運(yùn)行。這樣的回溯前進(jìn)單元是神經(jīng)網(wǎng)絡(luò)注意力模型組。 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),長(zhǎng)短期記憶(LSTM),這些紅得發(fā)紫的神經(jīng)網(wǎng)絡(luò)——是時(shí)候拋棄它們了!LSTM和RNN被發(fā)明于上世紀(jì)80、90年代,于2014年死而復(fù)生。接下...
摘要:要學(xué)習(xí)深度學(xué)習(xí),那么首先要熟悉神經(jīng)網(wǎng)絡(luò),簡(jiǎn)稱的一些基本概念。網(wǎng)絡(luò)徑向基函數(shù)網(wǎng)絡(luò)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò),它使用徑向基函數(shù)作為隱層神經(jīng)元激活函數(shù),而輸出層則是對(duì)隱層神經(jīng)元輸出的線性組合。 閱讀目錄1. 神經(jīng)元模型2. 感知機(jī)和神經(jīng)網(wǎng)絡(luò)3. 誤差逆?zhèn)鞑ニ惴?. 常見(jiàn)的神經(jīng)網(wǎng)絡(luò)模型5. 深度學(xué)習(xí)6. 參考內(nèi)容目前,深度學(xué)習(xí)(Deep Learning,簡(jiǎn)稱DL)在算法領(lǐng)域可謂是大紅大紫,現(xiàn)在不只是...
摘要:首先是最頂層的抽象,這個(gè)里面最基礎(chǔ)的就是和,記憶中和的抽象是類似的,將計(jì)算結(jié)果和偏導(dǎo)結(jié)果用一個(gè)抽象類來(lái)表示了。不過(guò),本身并沒(méi)有像其它兩個(gè)庫(kù)一樣提供,等模型的抽象類,因此往往不會(huì)直接使用去寫模型。 本文將從deep learning 相關(guān)工具庫(kù)的使用者角度來(lái)介紹下github上stars數(shù)排在前面的幾個(gè)庫(kù)(tensorflow, keras, torch, theano, skflow, la...
摘要:深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決計(jì)算機(jī)視覺(jué)語(yǔ)音識(shí)別和自然語(yǔ)言處理等機(jī)器學(xué)習(xí)任務(wù)的較先進(jìn)的技術(shù)。圖深度壓縮的實(shí)驗(yàn)結(jié)果訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)可以被大量剪枝和壓縮的事實(shí)意味著我們當(dāng)前的訓(xùn)練方法具有一些局限性。 深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為解決計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理等機(jī)器學(xué)習(xí)任務(wù)的較先進(jìn)的技術(shù)。盡管如此,深度學(xué)習(xí)算法是計(jì)算密集型和存儲(chǔ)密集型的,這使得它難以被部署到只有有限硬件資源的嵌入式系統(tǒng)上。為了解決這個(gè)限...
摘要:毫無(wú)疑問(wèn),深度學(xué)習(xí)將驅(qū)動(dòng)在公司中的應(yīng)用。在其價(jià)值評(píng)估和策略評(píng)估上使用的就是深度學(xué)習(xí)。端到端的深度學(xué)習(xí)是一個(gè)令人著迷的研究領(lǐng)域,但是迄今為止混合系統(tǒng)在應(yīng)用領(lǐng)域會(huì)更有效率。目前專注于深度學(xué)習(xí)模式,方法和戰(zhàn)略的研究。 在之前的博客中,我曾預(yù)言過(guò)未來(lái)幾年的發(fā)展趨勢(shì)。我記得上一篇博客的內(nèi)容是《2011年軟件開(kāi)發(fā)趨勢(shì)和相關(guān)預(yù)言》(Software DevelopmentTrends and Predic...
閱讀 2627·2021-11-12 10:36
閱讀 2267·2021-08-23 09:47
閱讀 1689·2019-08-30 15:44
閱讀 1411·2019-08-30 14:10
閱讀 2249·2019-08-29 16:52
閱讀 2346·2019-08-29 16:40
閱讀 1594·2019-08-29 16:17
閱讀 2415·2019-08-26 13:21