成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

神奇!只有遺忘門的LSTM性能優(yōu)于標準LSTM

Arno / 2075人閱讀

摘要:本論文研究只有遺忘門的話會怎樣,并提出了,實驗表明該模型的性能優(yōu)于標準。這里我們發(fā)現(xiàn),一個只有遺忘門且?guī)в衅庙椀陌姹静粌H能節(jié)省計算成本,而且在多個基準數(shù)據(jù)集上的性能優(yōu)于標準,能與一些當下較好的模型競爭。

本論文研究 LSTM 只有遺忘門的話會怎樣,并提出了 JANET,實驗表明該模型的性能優(yōu)于標準 LSTM。

1.介紹

優(yōu)秀的工程師確保其設計是實用的。目前我們已經(jīng)知道解決序列分析問題較好的方式是長短期記憶(LSTM)循環(huán)神經(jīng)網(wǎng)絡,接下來我們需要設計一個滿足資源受限的現(xiàn)實世界應用的實現(xiàn)。鑒于使用兩個門的門控循環(huán)單元(Cho 等,2014)的成功,第一種設計更硬件高效的 LSTM 的方法可能是消除冗余門(redundant gate)。因為我們要尋求比 GRU 更高效的模型,所以只有單門 LSTM 模型值得我們研究。為了說明為什么這個單門應該是遺忘門,讓我們從 LSTM 的起源講起。

在那個訓練循環(huán)神經(jīng)網(wǎng)絡(RNN)十分困難的年代,Hochreiter 和 Schmidhuber(1997)認為在 RNN 中使用單一權重(邊)來控制是否接受記憶單元的輸入或輸出帶來了沖突性更新(梯度)。本質(zhì)上來講,每一步中長短期誤差(long and short-range error)作用于相同的權重,且如果使用 sigmoid 激活函數(shù)的話,梯度消失的速度要比權重增加速度快。之后他們提出長短期記憶(LSTM)單元循環(huán)神經(jīng)網(wǎng)絡,具備乘法輸入門和輸出門。這些門可以通過「保護」單元免受不相關信息(其他單元的輸入或輸出)影響,從而緩解沖突性更新問題。

LSTM 的第一個版本只有兩個門:Gers 等人(2000)首先發(fā)現(xiàn)如果沒有使記憶單元遺忘信息的機制,那么它們可能會無限增長,最終導致網(wǎng)絡崩潰。為解決這個問題,他們?yōu)檫@個 LSTM 架構(gòu)加上了另一個乘法門,即遺忘門,完成了我們今天看到的 LSTM 版本。

?

鑒于遺忘門發(fā)現(xiàn)的重要性,那么設想 LSTM 僅使用一個遺忘門,輸入和輸出門是否必要呢?本研究將探索多帶帶使用遺忘門的優(yōu)勢。在五個任務中,僅使用遺忘門的模型提供了比使用全部三個 LSTM 門的模型更好的解決方案。

3 JUST ANOTHER NETWORK

我們提出了一個簡單的 LSTM 變體,其只有一個遺忘門。它是 Just Another NETwork,因此我們將其命名為 JANET。我們從標準 LSTM(Lipton 等,2015)開始,其中符號具備標準含義,定義如下

為了將上述內(nèi)容轉(zhuǎn)換成 JANET 架構(gòu),我們刪除了輸入和輸出門。將信息的累積和刪除關聯(lián)起來似乎是明智的,因此我們將輸入和遺忘調(diào)制結(jié)合起來,就像 Greff et al. (2015) 論文中所做的那樣,而這與 leaky unit 實現(xiàn) (Jaeger, 2002, §8.1) 類似。此外,h_t 的 tanh 激活函數(shù)使梯度在反向傳播期間出現(xiàn)收縮,這可能加劇梯度消失問題。權重 U? 可容納 [-1,1] 區(qū)間外的值,因此我們可移除這個不必要且可能帶來問題的 tanh 非線性函數(shù)。得出的 JANET 結(jié)果如下:

4 實驗與結(jié)果

表 1:不同循環(huán)神經(jīng)網(wǎng)絡架構(gòu)的準確率 [%]。圖中展示了 10 次獨立運行得到的平均值和標準差。我們實驗中的較佳準確率結(jié)果以及引用論文中的較佳結(jié)果以粗體顯示。

令人驚訝的是,結(jié)果表明 JANET 比標準 LSTM 的準確率更高。此外,JANET 是在所有分析數(shù)據(jù)集上表現(xiàn)較佳的模型之一。因此,通過簡化 LSTM,我們不僅節(jié)省了計算成本,還提高了測試集上的準確率!

圖 1:在 MNIST 和 pMNIST 上訓練的 LSTM 的測試準確率。

圖 2:JANET 和 LSTM 在 MNIST 上訓練時的測試集準確率對比。

圖 3:不同層大小的 JANET 和 LSTM 在 pMNIST 數(shù)據(jù)集上的準確率(%)。

論文:THE UNREASONABLE EFFECTIVENESS OF THE FORGET GATE

論文鏈接:https://arxiv.org/abs/1804.04849

摘要:鑒于門控循環(huán)單元(GRU)的成功,一個很自然的問題是長短期記憶(LSTM)網(wǎng)絡中的所有門是否是必要的。之前的研究表明,遺忘門是 LSTM 中最重要的門之一。這里我們發(fā)現(xiàn),一個只有遺忘門且?guī)в?chrono-initialized 偏置項的 LSTM 版本不僅能節(jié)省計算成本,而且在多個基準數(shù)據(jù)集上的性能優(yōu)于標準 LSTM,能與一些當下較好的模型競爭。我們提出的網(wǎng)絡 JANET,在 MNIST 和 pMNIST 數(shù)據(jù)集上分別達到了 99% 和 92.5% 的準確率,優(yōu)于標準 LSTM 98.5% 和 91% 的準確率。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4765.html

相關文章

  • 難以置信!LSTM和GRU的解析從未如此清晰

    摘要:作為解決方案的和和是解決短時記憶問題的解決方案,它們具有稱為門的內(nèi)部機制,可以調(diào)節(jié)信息流。隨后,它可以沿著長鏈序列傳遞相關信息以進行預測,幾乎所有基于遞歸神經(jīng)網(wǎng)絡的技術成果都是通過這兩個網(wǎng)絡實現(xiàn)的。和采用門結(jié)構(gòu)來克服短時記憶的影響。 短時記憶RNN 會受到短時記憶的影響。如果一條序列足夠長,那它們將很難將信息從較早的時間步傳送到后面的時間步。 因此,如果你正在嘗試處理一段文本進行預測,RNN...

    MrZONT 評論0 收藏0
  • LSTM 和遞歸網(wǎng)絡基礎教程

    摘要:前饋網(wǎng)絡的反向傳播從最后的誤差開始,經(jīng)每個隱藏層的輸出權重和輸入反向移動,將一定比例的誤差分配給每個權重,方法是計算權重與誤差的偏導數(shù),即兩者變化速度的比例。隨后,梯度下降的學習算法會用這些偏導數(shù)對權重進行上下調(diào)整以減少誤差。 目錄前饋網(wǎng)絡遞歸網(wǎng)絡沿時間反向傳播梯度消失與梯度膨脹長短期記憶單元(LSTM)涵蓋多種時間尺度本文旨在幫助神經(jīng)網(wǎng)絡學習者了解遞歸網(wǎng)絡的運作方式,以及一種主要的遞歸網(wǎng)絡...

    Barrior 評論0 收藏0
  • 首次超越LSTM : Facebook 門卷積網(wǎng)絡新模型能否取代遞歸模型?

    摘要:得到的結(jié)果如下上圖是門卷積神經(jīng)網(wǎng)絡模型與和模型在數(shù)據(jù)集基準上進行測試的結(jié)果。雖然在這一研究中卷積神經(jīng)網(wǎng)絡在性能上表現(xiàn)出了對遞歸神經(jīng)網(wǎng)絡,尤其是的全面超越,但是,現(xiàn)在談取代還為時尚早。 語言模型對于語音識別系統(tǒng)來說,是一個關鍵的組成部分,在機器翻譯中也是如此。近年來,神經(jīng)網(wǎng)絡模型被認為在性能上要優(yōu)于經(jīng)典的 n-gram 語言模型。經(jīng)典的語言模型會面臨數(shù)據(jù)稀疏的難題,使得模型很難表征大型的文本,...

    高勝山 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<