成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

完全基于卷積神經(jīng)網(wǎng)絡(luò)的seq2seq

hover_lew / 1736人閱讀

摘要:本文參考文獻被引次數(shù)被引次數(shù)今天要講的一個模型是由人工智能研究院提出來的完全基于卷積神經(jīng)網(wǎng)絡(luò)的框架,我在之前的推送中已經(jīng)講過好多次了,傳統(tǒng)的模型是基于來實現(xiàn)的,特別是,這就帶來了計算量復(fù)雜的問題。

本文參考文獻:

Gehring J, Auli M, Grangier D, et al. Convolutional Sequence to Sequence Learning[J]. arXiv preprint arXiv:1705.03122, 2017.

被引次數(shù):13

Dauphin Y N, Fan A, Auli M, et al. Language modeling with gated convolutional networks[J]. arXiv preprint arXiv:1612.08083, 2016.

被引次數(shù):24

今天要講的一個模型是由Facebook人工智能研究院提出來的完全基于卷積神經(jīng)網(wǎng)絡(luò)的seq2seq框架,seq2seq我在之前的推送中已經(jīng)講過好多次了,傳統(tǒng)的seq2seq模型是基于RNN來實現(xiàn)的,特別是LSTM,這就帶來了計算量復(fù)雜的問題。Facebook作出大膽改變,將編碼器、解碼器、注意力機制甚至是記憶單元全部替換成卷積神經(jīng)網(wǎng)絡(luò),想法是不是簡單粗暴?雖然單層CNN只能看到固定范圍的上下文,但是將多個CNN疊加起來就可以很容易將有效的上下文范圍放大。Facebook將此模型成功地應(yīng)用到了英語-法語機器翻譯、英語-德語機器翻譯,不僅刷新了二者前期的記錄,而且還將訓(xùn)練速度提高了一個數(shù)量級,無論是GPU還是CPU上。

在詳細開始介紹Facebook的conv seq2seq模型之前,我們需要回顧一下Gated CNN,這個同樣是Facebook在去年底提出來的用于語言建模的模型。

用于語言建模的Gated CNN模型如下圖所示,可以看到,最上層的word embedding操作與傳統(tǒng)的語言建模沒有區(qū)別,緊接著就是對這些embedding向量劃分時間窗并做卷積操作,注意這里使用了兩個卷積神經(jīng)網(wǎng)絡(luò),這兩個神經(jīng)網(wǎng)絡(luò)中的其中一個通過激活函數(shù)一個與另外一個進行相乘,得到最終的輸出。說到這里,應(yīng)該有讀者已經(jīng)發(fā)現(xiàn)了其中一個卷積神經(jīng)網(wǎng)絡(luò)的功能就是充當(dāng)了閘門的作用,即控制著多少有用的信息作為最終的輸出。同時,實驗結(jié)果也表明Gated CNN在WikiText-103上取得了較好的效果。

在conv seq2seq這篇文章中,也使用了Gated CNN以及Residual connection,文中的模型結(jié)構(gòu)圖如下所示,下面我來仔細說明一下這里的計算細節(jié)。

對于編碼器,原始的單詞首先需要經(jīng)過embedding層得到其相應(yīng)的embedding向量,然后將embedding向量作為Gated CNN的輸入,這里需要注意的是,為了保證經(jīng)過卷積操作之后與之前的輸入長度一致,卷積需要做pad操作。模型中有兩個地方都使用到了GLU(Gated Linear Unit),我在圖中已經(jīng)用紅色字眼標出,編碼器的embedding和解碼器的embedding分別通過各自的GLU單元得到各自的分布式狀態(tài),將兩個狀態(tài)矩陣進行點乘即可得到注意力權(quán)重,圖中已用紅色字體Attention標出,具體的注意力權(quán)重的計算如下公式所示:

注意到圖中編碼器的embedding和編碼器的狀態(tài)進行相加,并且乘上注意力權(quán)重,得到的結(jié)果文中稱之為條件輸入c,這里我們可以對比傳統(tǒng)的注意力機制,傳統(tǒng)的注意力機制是直接將注意力權(quán)重和編碼器的狀態(tài)進行相乘,而這里引入了embedding量,文中解釋是因為embedding可以在做預(yù)測的時候可以結(jié)合具體元素的信息,增加了位置感,條件輸入c的計算如下圖公式所示:

將條件輸入c加上解碼器的狀態(tài),即可得到輸出序列的概率,以上就是conv seq2seq的模型結(jié)構(gòu)。作者最終在機器翻譯上相比其他RNN的模型速度提高了近10倍!

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4631.html

相關(guān)文章

  • 該放棄正在墮落“RNN和LSTM”了

    摘要:通過兩年的發(fā)展,今天我們可以肯定地說放棄你的和有證據(jù)表明,谷歌,,等企業(yè)正在越來越多地使用基于注意力模型的網(wǎng)絡(luò)。 摘要: 隨著技術(shù)的發(fā)展,作者覺得是時候放棄LSTM和RNN了!到底為什么呢?來看看吧~ showImg(https://segmentfault.com/img/bV8ZS0?w=800&h=533); 遞歸神經(jīng)網(wǎng)絡(luò)(RNN),長期短期記憶(LSTM)及其所有變體: 現(xiàn)在是...

    Zoom 評論0 收藏0
  • 貪心學(xué)院-圖神經(jīng)網(wǎng)絡(luò)高級訓(xùn)練營

    摘要:百度網(wǎng)盤提取碼最近一直關(guān)注貪心學(xué)院的機器學(xué)習(xí)訓(xùn)練營,發(fā)現(xiàn)這門課講的很有深度,不僅適合職場也適合科研人員,加入行業(yè)拿到高薪僅僅是職業(yè)生涯的開始。 ??百度網(wǎng)盤??提取碼:u6C4最近一直關(guān)注貪心學(xué)院的機器學(xué)習(xí)訓(xùn)練營,發(fā)現(xiàn)這門課講的很有深度,不僅適合職場也適合科研人員,加入AI行業(yè)拿到高薪僅僅是職業(yè)生涯的開始。現(xiàn)階段AI人才結(jié)...

    番茄西紅柿 評論0 收藏2637

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<