attention is all you need 的預(yù)測過程

zhouzhou 發(fā)布于2019-07-31 09:59 / 1566人閱讀

摘要：一預(yù)測流程及輸入內(nèi)容我們的的是輸入測試集編碼也就是和訓(xùn)練階段輸入一樣，但的是向量維度和訓(xùn)練時的輸入相同。在預(yù)測時，的會傳遞到這邊的個作為其，隨機向量在第一步的時候作為傳入。

好，閑話少說。關(guān)于self-attention的訓(xùn)練階段http://jalammar.github.io/ill...，這篇文章寫的已經(jīng)很清楚，而且確實驗證有效。那么今天扯一下該模型的預(yù)測是怎么做的。
一.預(yù)測流程及輸入內(nèi)容
1.我們的encode的input是輸入測試集編碼（也就是和訓(xùn)練階段輸入一樣），但decode的input是0向量（維度和訓(xùn)練時的輸入相同）。
2.在預(yù)測時，encode的output會傳遞到decode這邊的6個layer作為其k,v，隨機0向量在第一步的時候作為q傳入。（只在第一步作為input傳入，然后開心訓(xùn)練）
二.但為什么傳入的q為0矩陣，模型卻能進行很好的預(yù)測呢。
以我是中國人對應(yīng)i am a chinese舉例。
1.當(dāng)encode訓(xùn)練好后，相對來說我是中國人對應(yīng)的矩陣也就確定了，然后經(jīng)過encode編碼得到最終輸入想decode的output，也就是k，v,而在論文中decode這邊一共有6層網(wǎng)絡(luò)層（每層3個sub-layer），這里的kv會輸入到這6層的每一層，好，關(guān)鍵來了。模型怎么能夠預(yù)測出我對應(yīng)i，這是最重要的一步也是最難理解的一步。在decode層，我們要弄清訓(xùn)練的什么，當(dāng)我們訓(xùn)練好后的這些參數(shù)，其作用又是什么，實際上就是當(dāng)我們傳過來kv時，因為kv已知，是全局變量，我們能夠看到，所以在decode中，i的向量可以理解為當(dāng)指定kv后，又知道訓(xùn)練好的參數(shù)矩陣，經(jīng)過一系列編號，我們第一個的輸出很大概率就是對應(yīng)的i的向量，當(dāng)輸出為i向量時，即預(yù)測對了，然后預(yù)測am，會把第一次i向量作為額外的input加到q上，繼續(xù)進行預(yù)測。直到遇到結(jié)束向量。
三.問題思考
1.論文里的multi-head為什么要這么做，事實上論文提出說因為發(fā)現(xiàn)多頭效果更好，筆者認為因為每個頭的參數(shù)是隨機初始化，所以其學(xué)到的關(guān)于一句話關(guān)注的點就會不同，這樣會加深對原句的學(xué)習(xí)能力，同時，8頭并行減少了訓(xùn)練時間。
2.為什么position embedding是cos和sin，論文解釋可以學(xué)到更長的序列關(guān)系，這點我還沒弄懂。
3.mask是做什么用，使decode只考慮前面的，不考慮后面的，這點隨意百度一下就可以了。
該文不保證完全正確，只做參考。

GPU云服務(wù)器云服務(wù)器 Attention needs Need 對人工智能的預(yù)測

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/43063.html

發(fā)表評論

登陸后可評論

0條評論

zhouzhou

男|高級講師

我要關(guān)注我要私信

TA的文章

iON十月優(yōu)惠：美國云服務(wù)器85折，季付12.75/月起，圣何塞/洛杉磯機房

閱讀 1428·2021-10-11 11:12
不可錯過的自動化測試框架：robotframework之WebDriver功能配置

閱讀 3258·2021-09-30 09:46
快云科技618特惠活動：（香港CN2 GIA香港vps 7.5折續(xù)費永久同價-另有香港年付5折更優(yōu)

閱讀 1644·2021-07-28 00:14
CSS clip 屬性深入

閱讀 3147·2019-08-30 13:49
服務(wù)端渲染的React手腳架。完美使用 React, Redux, and React-Router

閱讀 2594·2019-08-29 11:27
Graph 數(shù)據(jù)可視化：JS 自動布局有向無環(huán)圖

閱讀 3248·2019-08-26 11:52
vue多環(huán)境配置方案

閱讀 610·2019-08-23 18:14
thinkphp ajax提交token

閱讀 3447·2019-08-23 16:27

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

attention is all you need 的預(yù)測過程

相關(guān)文章

如何使用注意力模型生成圖像描述？

深度學(xué)習(xí)實現(xiàn)自動生成圖片字幕

發(fā)表評論

0條評論

zhouzhou

男|高級講師

TA的文章

iON十月優(yōu)惠：美國云服務(wù)器85折，季付12.75/月起，圣何塞/洛杉磯機房

不可錯過的自動化測試框架：robotframework之WebDriver功能配置

快云科技618特惠活動：（香港CN2 GIA香港vps 7.5折續(xù)費永久同價-另有香港年付5折更優(yōu)

CSS clip 屬性深入

服務(wù)端渲染的React手腳架。完美使用 React, Redux, and React-Router

Graph 數(shù)據(jù)可視化：JS 自動布局有向無環(huán)圖

vue多環(huán)境配置方案

thinkphp ajax提交token

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

attention is all you need 的預(yù)測過程

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！