成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

attention is all you need 的預(yù)測過程

zhouzhou / 1566人閱讀

摘要:一預(yù)測流程及輸入內(nèi)容我們的的是輸入測試集編碼也就是和訓(xùn)練階段輸入一樣,但的是向量維度和訓(xùn)練時的輸入相同。在預(yù)測時,的會傳遞到這邊的個作為其,隨機向量在第一步的時候作為傳入。

好,閑話少說。關(guān)于self-attention的訓(xùn)練階段http://jalammar.github.io/ill...,這篇文章寫的已經(jīng)很清楚,而且確實驗證有效。那么今天扯一下該模型的預(yù)測是怎么做的。
一.預(yù)測流程及輸入內(nèi)容
1.我們的encode的input是輸入測試集編碼(也就是和訓(xùn)練階段輸入一樣),但decode的input是0向量(維度和訓(xùn)練時的輸入相同)。
2.在預(yù)測時,encode的output會傳遞到decode這邊的6個layer作為其k,v,隨機0向量在第一步的時候作為q傳入。(只在第一步作為input傳入,然后開心訓(xùn)練)
二.但為什么傳入的q為0矩陣,模型卻能進行很好的預(yù)測呢。
以我是中國人對應(yīng)i am a chinese舉例。
1.當(dāng)encode訓(xùn)練好后,相對來說我是中國人對應(yīng)的矩陣也就確定了,然后經(jīng)過encode編碼得到最終輸入想decode的output,也就是k,v,而在論文中decode這邊一共有6層網(wǎng)絡(luò)層(每層3個sub-layer),這里的kv會輸入到這6層的每一層,好,關(guān)鍵來了。模型怎么能夠預(yù)測出我對應(yīng)i,這是最重要的一步也是最難理解的一步。在decode層,我們要弄清訓(xùn)練的什么,當(dāng)我們訓(xùn)練好后的這些參數(shù),其作用又是什么,實際上就是當(dāng)我們傳過來kv時,因為kv已知,是全局變量,我們能夠看到,所以在decode中,i的向量可以理解為當(dāng)指定kv后,又知道訓(xùn)練好的參數(shù)矩陣,經(jīng)過一系列編號,我們第一個的輸出很大概率就是對應(yīng)的i的向量,當(dāng)輸出為i向量時,即預(yù)測對了,然后預(yù)測am,會把第一次i向量作為額外的input加到q上,繼續(xù)進行預(yù)測。直到遇到結(jié)束向量。
三.問題思考
1.論文里的multi-head為什么要這么做,事實上論文提出說因為發(fā)現(xiàn)多頭效果更好,筆者認為因為每個頭的參數(shù)是隨機初始化,所以其學(xué)到的關(guān)于一句話關(guān)注的點就會不同,這樣會加深對原句的學(xué)習(xí)能力,同時,8頭并行減少了訓(xùn)練時間。
2.為什么position embedding是cos和sin,論文解釋可以學(xué)到更長的序列關(guān)系,這點我還沒弄懂。
3.mask是做什么用,使decode只考慮前面的,不考慮后面的,這點隨意百度一下就可以了。
該文不保證完全正確,只做參考。

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/43063.html

相關(guān)文章

  • 如何使用注意力模型生成圖像描述?

    摘要:本教程中用到了基于注意力的模型,它使我們很直觀地看到當(dāng)文字生成時模型會關(guān)注哪些部分。運行的時候,它會自動下載數(shù)據(jù)集,使用模型訓(xùn)練一個編碼解碼器,然后用模型對新圖像進行文字描述。 圖像描述類任務(wù)就是給圖像生成一個標題。 給定一個圖像:圖片出處, 許可證:公共領(lǐng)域我們的目標是用一句話來描述圖片, 比如「一個沖浪者正在沖浪」。 本教程中用到了基于注意力的模型,它使我們很直觀地看到當(dāng)文字生成時模型會...

    zhouzhou 評論0 收藏0
  • 深度學(xué)習(xí)實現(xiàn)自動生成圖片字幕

    摘要:介紹本次項目使用深度學(xué)習(xí)自動生成圖像字幕。本次,我們利用遷移學(xué)習(xí)使用模型實現(xiàn)此功能。使用對損失修正。至于文本預(yù)測部分與使用注意力機制實現(xiàn)機器翻譯大體一致。 介紹 showImg(https://segmentfault.com/img/bVbkSso?w=2048&h=1358); 本次項目使用深度學(xué)習(xí)自動生成圖像字幕。如上圖,模型自動生成The person is riding a ...

    Eastboat 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<