成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

深度學(xué)習(xí)能力的拓展,Google Brain講解注意力模型和增強(qiáng)RNN

RayKr / 2680人閱讀

摘要:它可以用來做語音識別,使得一個(gè)處理語音,另一個(gè)瀏覽它,使其在生成文本時(shí)可以集中在相關(guān)的部分上。它對模型使用的計(jì)算量予以處罰。

本文的作者是 Google Brain 的兩位研究者 Chris Olah 和 Shan Carter,重點(diǎn)介紹了注意力和增強(qiáng)循環(huán)神經(jīng)網(wǎng)絡(luò),他們認(rèn)為未來幾年這些「增強(qiáng) RNN(augmented RNN)」將在深度學(xué)習(xí)能力擴(kuò)展中發(fā)揮重要的作用。

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks)是深度學(xué)習(xí)的重要組成部分,讓神經(jīng)網(wǎng)絡(luò)可以處理諸如文本、音頻和視頻等序列數(shù)據(jù)。它們可被用來做序列的高層語義理解、序列標(biāo)記,甚至可以從一個(gè)片段生產(chǎn)新的序列!

基本的 RNN 結(jié)構(gòu)難以處理長序列,然而一種特殊的 RNN 變種即「長短時(shí)記憶模型(LSTM)」網(wǎng)絡(luò)可以很好地處理長序列問題。這種模型能力強(qiáng)大,能在翻譯、語音識別和圖像描述等眾多任務(wù)中均取得里程碑式的效果。因而,循環(huán)神經(jīng)網(wǎng)絡(luò)在最近幾年已經(jīng)得到了廣泛使用。

正如所發(fā)生的一樣,我們看到給 RNN 添加新性能的研究工作越來越多。其中有四個(gè)特別突出的方向非常激動(dòng)人心:

這些技術(shù)都是 RNN 非常有效的擴(kuò)展,但真正引人注目的是它們可以有效地組合起來,而且似乎正要進(jìn)入一片更為廣闊的天地。此外,它們都依賴于注意力(attention)這樣一種同樣基礎(chǔ)的技術(shù)才能有效。

我們認(rèn)為未來幾年這些「增強(qiáng) RNN(augmented RNN)」將在深度學(xué)習(xí)能力擴(kuò)展中發(fā)揮重要的作用。

神經(jīng)圖靈機(jī)

神經(jīng)圖靈機(jī)(Graves, et al., 2014)是一個(gè) RNN 和一個(gè)外部存儲庫的結(jié)合。由于向量(vector)是神經(jīng)網(wǎng)絡(luò)的自然語言,所以這個(gè)記憶是一個(gè)向量數(shù)組:

但是,讀和寫是怎么工作的呢?其難點(diǎn)在于我們想讓它們可微分(differentiable)。尤其是,我們想讓它們對于我們讀或?qū)懙奈恢檬强晌⒌?,以使得我們可以學(xué)習(xí)讀和寫的位置。這是棘手的,因?yàn)閮?nèi)存地址似乎從根本上就是離散的。神經(jīng)圖靈機(jī)(NTM)運(yùn)用了一種非常聰明的解決方案:在每一步,它們以不同程度在所有地方都進(jìn)行讀和寫。

讓我們舉一個(gè)關(guān)于讀的例子。RNN 給出一個(gè)「注意力分配」來描述我們在所關(guān)心的不同記憶位置展開多少,而不是指定一個(gè)位置。因此,讀操作的結(jié)果是一個(gè)加權(quán)和(weighted sum)。

同樣地,我們以不同程度同時(shí)在所有地方執(zhí)行寫操作。同時(shí)一個(gè)注意力分布描述了我們在每個(gè)位置寫的多少。我們通過獲得一個(gè)存儲位置中的新的值來實(shí)現(xiàn)這一點(diǎn),這個(gè)值是由舊記憶和寫入值與由注意力權(quán)重決定的兩者之間位置的凸組合。

但是,NTMs 如何決定應(yīng)該關(guān)注記憶中的哪些位置呢?實(shí)際上,他們使用了兩種方法的組合:基于內(nèi)容的注意力和基于位置的注意力。基于內(nèi)容的注意力使 NTMs 可以在記憶中查找并關(guān)注與那些與查找相匹配的地方,而基于位置的注意力可以實(shí)現(xiàn)記憶中的相對運(yùn)動(dòng),從而使 NTM 可以循環(huán)。

這種讀寫能力使得 NTMs 可以執(zhí)行許多簡單的算法,超越以前的神經(jīng)網(wǎng)絡(luò)。例如,它們可以學(xué)習(xí)在記憶中存儲一個(gè)長序列,然后循環(huán)它,不斷回答指令。當(dāng)它們做這些時(shí),我們可以看他們讀寫的位置,以更好地了解他們在做什么:

他們也可以學(xué)習(xí)模仿一個(gè)查閱表,甚至學(xué)習(xí)排序(盡管他們有些作弊)!在另一方面,他們始終不能做數(shù)字加法、乘法等許多基本的事情。

從原始的 NTM 論文開始,已經(jīng)有許多令人振奮的論文探討相似的方向。神經(jīng) GPU(Kaiser & Sutskever,2015)克服 NTM 無法處理數(shù)字加法和乘法的問題。Zaremba & Sutskever 在 2016 年采用強(qiáng)化學(xué)習(xí)來訓(xùn)練 NTMs,而不是原始的可微的讀/寫。神經(jīng)隨機(jī)存取機(jī) (Kurach et al., 2015) 基于指針工作。一些論文已經(jīng)探討可微的數(shù)據(jù)結(jié)構(gòu),如堆棧和隊(duì)列 (Grefenstette et al. 2015; Joulin & Mikolov, 2015)。另外,記憶網(wǎng)絡(luò) (Weston et al., 2014; Kumar et al., 2015) 是攻克類似問題的另一種方式。

在某些客觀意義上,這些模型可執(zhí)行許多任務(wù),如學(xué)習(xí)如何做數(shù)字加法,都不是很難。對傳統(tǒng)的程序合成領(lǐng)域來說只是小菜一碟。但是神經(jīng)網(wǎng)絡(luò)可以做許多其他事情,而像神經(jīng)圖靈機(jī)這樣的模型似乎已經(jīng)打破了對它們能力的極大限制。

代碼

有一些實(shí)現(xiàn)這些模型的開源代碼。神經(jīng)圖靈機(jī)的開源實(shí)現(xiàn)包括 Taehoon Kim (TensorFlow)、Shawn Tan (Theano)、Fumin (Go)、Kai Sheng Tai (Torch)、和 Snip (Lasagne) 做的部署。神經(jīng) GPU 公開版的代碼是開源的,并放在 TensorFlow 模型庫。記憶網(wǎng)絡(luò)的開源實(shí)現(xiàn)包括 Facebook (Torch/Matlab)、YerevaNN (Theano)、和 Taehoon Kim (TensorFlow)。

注意力接口

當(dāng)我翻譯一個(gè)句子時(shí),我會尤其關(guān)注于我正在翻譯的單詞。當(dāng)我轉(zhuǎn)錄一個(gè)音頻,我會仔細(xì)聽我正在寫的那一段。如果你讓我來描述我所坐的房間,我會隨時(shí)把目光轉(zhuǎn)移到我正在描述的物體上。

神經(jīng)網(wǎng)絡(luò)可以通過注意力來實(shí)現(xiàn)同樣的行為——關(guān)注所收到信息子集的一部分。例如,一個(gè) RNN 參與另一個(gè)網(wǎng)絡(luò)的輸出。在每一個(gè)時(shí)間步驟,它會關(guān)注于另一個(gè) RNN 的不同位置。

我們希望注意力是可微的,這樣我們就可以學(xué)習(xí)關(guān)注哪里。為了做這個(gè),我們使用了和神經(jīng)圖靈機(jī)中一樣的 trick:關(guān)注所有位置,只是程度不一樣。

通常是使用基于內(nèi)容的注意力生成注意力分布。參與的 RNN 會生成一個(gè)描述它想關(guān)注內(nèi)容的查詢。每一個(gè)條目和這個(gè)查詢做點(diǎn)乘來產(chǎn)生一個(gè)分?jǐn)?shù),這個(gè)分?jǐn)?shù)描述這個(gè)條目與查詢匹配程度。這些分?jǐn)?shù)被輸入一個(gè) softmax 來生成注意力分布。

RNNs 之間注意力的一個(gè)應(yīng)用是翻譯 (Bahdanau, et al. 2014)。一個(gè)傳統(tǒng)的序列到序列模型需要將整個(gè)輸入抽象成一個(gè)向量,然后將它展開回復(fù)出來。注意力規(guī)避了這種做法,它讓 RNN 沿著它看見的每個(gè)單詞信息來處理輸入,然后讓 RNN 生成輸出來關(guān)注到具有相關(guān)性的單詞上。

Diagram derived from Fig. 3 of Bahdanau, et al. 2014

這種 RNNs 之間的注意力有許多其他應(yīng)用。它可以用來做語音識別 (Chan, et al. 2015),使得一個(gè) RNN 處理語音,另一個(gè) RNN 瀏覽它,使其在生成文本時(shí)可以集中在相關(guān)的部分上。

這種注意力的其他應(yīng)用包括:文本解析 (Vinyals, et al., 2014),它使模型在生成解析樹時(shí)能瀏覽單詞;對話建模 (Vinyals & Le, 2015),使模型在生成響應(yīng)時(shí)關(guān)注于對話的前面部分。

注意力同樣可以用在卷積神經(jīng)網(wǎng)絡(luò)和 RNN 的接口。它使得 RNN 在每一步可以觀察一張圖像的不同位置。這種記憶力的一個(gè)流行應(yīng)用就是圖片描述(image captioning)。首先,一個(gè)卷積網(wǎng)絡(luò)處理圖片提取高層特征。然后一個(gè) RNN 開始運(yùn)營,生成一段對圖像的描述。在生成這個(gè)描述的每一個(gè)單詞時(shí),RNN 關(guān)注于圖像相關(guān)部分的卷積網(wǎng)絡(luò)解釋。如下圖:

更廣泛地說,當(dāng)希望與一個(gè)在輸出具有重復(fù)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)交互時(shí),注意力接口都可以被采用。

我們發(fā)現(xiàn),注意力接口已經(jīng)是一個(gè)非常普遍和強(qiáng)大的技術(shù),并且正變得越來越普遍。

自適應(yīng)計(jì)算時(shí)間

標(biāo)準(zhǔn) RNN 在每一個(gè)時(shí)間步驟完成相同的計(jì)算量。這看起來不是很直觀。一個(gè)人當(dāng)然在問題變得困難的時(shí)候思考的更多,不是么?這也限制了 RNN 在 長度為 n 的鏈表上完成 O(n) 的運(yùn)算。

自適應(yīng)計(jì)算時(shí)間(Graves,2016),是讓 RNN 在每一步有不同計(jì)算量的方式。核心想法很簡單:允許 RNN 在每一時(shí)間步驟做多個(gè)計(jì)算步驟。

為了讓網(wǎng)絡(luò)學(xué)習(xí)有多少步驟要做,我們想要步驟的數(shù)量是可微分的。我們采用之前用過的技巧完成這項(xiàng)任務(wù):不再是決定運(yùn)行不連續(xù)數(shù)量的步驟,而是有一個(gè)在運(yùn)行步驟數(shù)量上的注意分布。輸出是每個(gè)步驟輸出的加權(quán)求和。

有一些細(xì)節(jié)在先前的圖解中被忽視了。這兒是一個(gè)完整的、包含一個(gè)時(shí)間步驟、三個(gè)計(jì)算步驟的圖解。

這里稍有些復(fù)雜,所以讓我們一步一步解決。在高層次上,我們?nèi)赃\(yùn)行著 RNN,并輸出狀態(tài)的加權(quán)求和:

每一步的權(quán)值由「阻止神經(jīng)元(halting neuron)」所決定。它是一個(gè)考察 RNN 狀態(tài)的 S 型神經(jīng)元,并產(chǎn)生一個(gè)阻止權(quán)值,我們可以認(rèn)為這個(gè)權(quán)值是我們應(yīng)該在那個(gè)步驟停下來的概率。

我們對于阻止權(quán)重(halting weight)為 1 的有總預(yù)算,所以我們順著頂層跟蹤這個(gè)預(yù)算。當(dāng)這個(gè)值小于 epsilon,我們停止。

由于我們是當(dāng)預(yù)算值小于 epsilon 的時(shí)候停止,當(dāng)我們停止時(shí)可能會剩余一些阻止預(yù)算(halting budget)。我們應(yīng)該用它做什么呢?技術(shù)上,它應(yīng)被賦予給未來的步驟,但是我們不想計(jì)算那些,所以我們將它歸屬于最后一個(gè)步驟。

當(dāng)在訓(xùn)練自適應(yīng)計(jì)算時(shí)間模型時(shí),有人在成本函數(shù)中增加了「考慮成本(ponder cost)」這一術(shù)語。它對模型使用的計(jì)算量予以處罰。這個(gè)值越大,在性能和降低計(jì)算時(shí)間進(jìn)行更多地權(quán)衡。

自適應(yīng)計(jì)算時(shí)間是非常新的想法,但是我們相信,與其他類似的想法一樣,它們都將是非常重要的想法。

代碼

如今,部署自適應(yīng)計(jì)算時(shí)間的一個(gè)開源,看起來是 Mark Neumann(https://github.com/DeNeutoy/act-tensorflow)做的。(TensorFlow)

神經(jīng)編程器(Neural Programmer)

神經(jīng)網(wǎng)絡(luò)在許多任務(wù)上表現(xiàn)出色,但是它們也在努力做一些基礎(chǔ)事情,例如用普通方法計(jì)算很瑣碎的算數(shù)。如果有一種方式能融合神經(jīng)網(wǎng)絡(luò)與普通的編程,并吸收各自較好的東西,那真是太好了。

神經(jīng)編程器(Neelakantan,et al.,2015)是其中一種方式。為了解決一項(xiàng)任務(wù),它學(xué)習(xí)創(chuàng)建程序。事實(shí)上,在不需要正確的程序樣本的情況下,它學(xué)習(xí)生成這樣的程序。它發(fā)現(xiàn)如何生產(chǎn)程序,并把它作為完成任務(wù)的手段。

論文中的實(shí)際模型回答了關(guān)于產(chǎn)生類 SQL 的程序查詢表格的問題。然而,這有很多的細(xì)節(jié)使得這個(gè)問題稍有些復(fù)雜,所以讓我們從想象一個(gè)稍簡單的模型開始,給定一個(gè)算術(shù)表達(dá)式,并生成一個(gè)程序?qū)ζ溥M(jìn)行評估。

生成程序是一系列的運(yùn)算。每個(gè)運(yùn)算被定義為在上個(gè)運(yùn)算輸出上做運(yùn)算。所以一個(gè)運(yùn)算可能是例如「在兩個(gè)步驟前的輸出運(yùn)算和一個(gè)步驟前的輸出運(yùn)算相加」這樣的事情。這相比與一個(gè)有著可被賦值與讀取的變量的程序,更像是 Unix 中的管道(pipe)。

程序挨次通過控制器 RNN 生成一個(gè)運(yùn)算。在每一步,控制器 RNN 輸出一個(gè)概率分布,決定下一個(gè)運(yùn)算該是什么。例如,我們可能非常確定我們想要在第一個(gè)步驟執(zhí)行加法,然后要有有一個(gè)艱難的時(shí)間決定第二步我們應(yīng)該是乘法還是除法,等等下去......

運(yùn)算上的結(jié)果分布可被評估。不再是在每一步運(yùn)行單個(gè)運(yùn)算,如今我們采用常見的注意技巧運(yùn)行所有運(yùn)算,之后平均所有輸出,通過我們運(yùn)行這些運(yùn)算的概率對其加權(quán)。

只要我們通過該運(yùn)算能夠定義導(dǎo)數(shù),關(guān)于概率的程序輸出就是可微分的。之后我們就能定義損失,并訓(xùn)練神經(jīng)網(wǎng)絡(luò)生成得到正確答案的程序。在這種方式中,神經(jīng)編程器在沒有正確程序樣本的情況下學(xué)習(xí)產(chǎn)生程序。的監(jiān)督是程序應(yīng)該得到的答案。

這就是神經(jīng)編程器的核心觀點(diǎn),但論文中回答的是關(guān)于表格的問題,而不是數(shù)學(xué)表達(dá)式的問題。下面是一些額外的靈活技巧:

多類別:神經(jīng)編程器中的很多預(yù)算都是處理類型而不是標(biāo)量數(shù)。一些運(yùn)算輸出表格中選中的列或是選中的單元。只有輸出相同類型的會合并在一起。

基準(zhǔn)輸入:在給定人口的城市表格情況下,神經(jīng)編程器需要回答例如「有多少城市人口超過 1000000?」這樣的問題。為了使這項(xiàng)任務(wù)更容易,一些運(yùn)算允許網(wǎng)絡(luò)參考它們正在回答的問題或是類名中的常量。參考通過注意機(jī)制以指針網(wǎng)絡(luò)的形式(Vinyals,et al.,2015)而產(chǎn)生。

神經(jīng)編程器不是讓神經(jīng)網(wǎng)絡(luò)生成程序的方式。另一個(gè)令人愉快的方式是神經(jīng)編程器——解釋器(Neural Programmer-Interpreter,Reed & de Freitas,2015),它能夠完成許多非常有趣的任務(wù),但是形式上需要正確程序的監(jiān)督。

我們認(rèn)為縮小傳統(tǒng)編程與神經(jīng)網(wǎng)絡(luò)之間的差距是極其重要的。雖然神經(jīng)編程器顯然不是最終的解決方案,但我們認(rèn)為從它之中能學(xué)習(xí)到許多重要的思路。

代碼

現(xiàn)在看起來沒有任何神經(jīng)編程器的開源部署,但是有一個(gè) Ken Morishita(https://github.com/mokemokechicken/keras_npi)部署的神經(jīng)編程器——解釋器。(Keras)

巨大的藍(lán)圖

擁有一張紙的人在某些意義上比沒有的人要更聰明。會使用數(shù)字符號的人可以解決一些問題,反之則不然。使用計(jì)算機(jī)可以使我們掌握超越自身的令人難以置信的技能。

總之,智能很多有趣的形式是人類富有創(chuàng)造力和啟發(fā)性的直覺與更加脆弱細(xì)致的媒介(就像語言和方程式)之間的交互。有時(shí),媒介是物理實(shí)體,保存我們的信息,防止我們犯錯(cuò)誤,或者處理繁重的計(jì)算任務(wù)。另一方面,媒介是我們可以控制的大腦里的模型。無論哪種方式,它看起來都是智能的深厚基礎(chǔ)。

最近在機(jī)器學(xué)習(xí)的研究結(jié)果已經(jīng)開始呈現(xiàn)這種趨勢,將神經(jīng)網(wǎng)絡(luò)的直覺與其他事物結(jié)合起來。有一種被稱為「啟發(fā)式搜索」的方法。例如,AlphaGo(Silver,et al.,2016)有個(gè)關(guān)于圍棋如何運(yùn)作的模型,并探索如何在神經(jīng)網(wǎng)絡(luò)的直覺指引下完成比賽。相似的,DeepMath(Alemi,et al.,2016)把神經(jīng)網(wǎng)絡(luò)作為對處理數(shù)學(xué)公式的直覺。我們在這篇文章中談到的「增強(qiáng)遞歸神經(jīng)網(wǎng)絡(luò)」是另一種方式,我們將 RNNs 連接到工程媒介來延伸它們的通用能力。

與媒介自然交互涉及到采取行動(dòng)、觀察、采取更多行動(dòng)等一系列操作。這給我們帶來一項(xiàng)重大挑戰(zhàn)——我們?nèi)绾螌W(xué)習(xí)采取哪種行動(dòng)?這看起來像是一個(gè)強(qiáng)化學(xué)習(xí)問題,我們將毫無疑問采用那種方式。但強(qiáng)化學(xué)習(xí)的研究確實(shí)正在攻克最難的問題,它的解決方案很難用。而注意力的絕妙支出在于它提供給我們一個(gè)更容易的方式,通過部分的在不同程度上采取所有去解決這個(gè)問題。在這種方法下,我們能夠設(shè)計(jì)媒介——例如 NTM 存儲器——允許分?jǐn)?shù)運(yùn)算以及可微。強(qiáng)化學(xué)習(xí)讓我們走向單一道路,并嘗試從中學(xué)習(xí)。而注意力會嘗試岔路口的每一個(gè)方向,并將道路合并到一起。

注意力的一個(gè)主要弱點(diǎn)是我們必須完成每步中的每個(gè)「行動(dòng)」。當(dāng)一個(gè)神經(jīng)圖靈機(jī)中的記憶量增加時(shí),計(jì)算開銷會呈線性增長。對此你可以想到一個(gè)解決方案,即讓你的注意力變得稀疏,這樣你就可以只接觸到一些記憶。然而這仍然是個(gè)挑戰(zhàn),因?yàn)槟憧赡芟M愕淖⒁饬ν耆谟洃泝?nèi)容,以使你可以輕易的觀察到每一個(gè)記憶。我們已經(jīng)觀察到一些可以攻克這個(gè)問題的初步嘗試,例如 Andrychowicz & kurach 所提出的方法,但看起來還有更多的事情要去做。如果我們確實(shí)能做到類似次線性時(shí)間注意力工作,那將非常強(qiáng)大!

增強(qiáng)式遞歸神經(jīng)網(wǎng)絡(luò),以及注意力的潛在技術(shù),是非常令人激動(dòng)的。我們期待看到接下來會發(fā)生什么。

參考文獻(xiàn):

Alemi, A. A., Chollet, F., Irving, G., Szegedy, C., & Urban, J. (2016). DeepMath-Deep Sequence Models for Premise Selection. arXiv preprint arXiv:1606.04442.

Andrychowicz, M., & Kurach, K. (2016). Learning Efficient Algorithms with Hierarchical Attentive Memory. arXiv preprint arXiv:1602.03218.

Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.

Chan, W., Jaitly, N., Le, Q. V., & Vinyals, O. (2015). Listen, attend and spell. arXiv preprint arXiv:1508.01211.

Graves, A., Wayne, G., & Danihelka, I. (2014). Neural turing machines. arXiv preprint arXiv:1410.5401.

Graves, A. (2016). Adaptive Computation Time for Recurrent Neural Networks. arXiv preprint arXiv:1603.08983.

Grefenstette, E., Hermann, K. M., Suleyman, M., & Blunsom, P. (2015). Learning to transduce with unbounded memory. In Advances in Neural Information Processing Systems (pp. 1828-1836).

Joulin, A., & Mikolov, T. (2015). Inferring algorithmic patterns with stack-augmented recurrent nets. In Advances in Neural Information Processing Systems (pp. 190-198).

Kaiser, ?., & Sutskever, I. (2015). Neural gpus learn algorithms. arXiv preprint arXiv:1511.08228.

Kumar, A., Irsoy, O., Su, J., Bradbury, J., English, R., Pierce, B., Ondruska, P., Gulrajani, I. & Socher, R., (2015). Ask me anything: Dynamic memory networks for natural language processing. arXiv preprint arXiv:1506.07285.

Kurach, K., Andrychowicz, M., & Sutskever, I. (2015). Neural random-access machines. arXiv preprint arXiv:1511.06392.

Neelakantan, A., Le, Q. V., & Sutskever, I. (2015). Neural programmer: Inducing latent programs with gradient descent. arXiv preprint arXiv:1511.04834.

Olah, C. (2015). Understanding LSTM Networks.

Reed, S., & de Freitas, N. (2015). Neural programmer-interpreters. arXiv preprint arXiv:1511.06279.

Silver, D., Huang, A., Maddison, C.J., Guez, A., Sifre, L., Van Den Driessche, G., Schrittwieser, J., Antonoglou, I., Panneershelvam, V., Lanctot, M. & Dieleman, S. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.

Vinyals, O., Kaiser, ?., Koo, T., Petrov, S., Sutskever, I., & Hinton, G. (2015). Grammar as a foreign language. In Advances in Neural Information Processing Systems (pp. 2773-2781).Vinyals, O., & Le, Q. (2015). A neural conversational model. arXiv preprint arXiv:1506.05869.

Vinyals, O., Fortunato, M., & Jaitly, N. (2015). Pointer networks. In Advances in Neural Information Processing Systems (pp. 2692-2700).

Weston, J., Chopra, S., & Bordes, A. (2014). Memory networks. arXiv preprint arXiv:1410.3916.

Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhutdinov, R., Zemel, R.S. & Bengio, Y., 2015. (2015). Show, attend and tell: Neural image caption generation with visual attention. arXiv preprint arXiv:1502.03044, 2(3), 5.

Zaremba, W., & Sutskever, I. (2015). Reinforcement learning neural Turing machines. arXiv preprint arXiv:1505.00521, 362.

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4398.html

相關(guān)文章

  • RNN CNN 機(jī)器學(xué)習(xí)

    摘要:監(jiān)督學(xué)習(xí)里典型的例子就是。這聽起來似乎有點(diǎn)不可思議,但是在我們自身認(rèn)識世界的過程中很多處都用到了無監(jiān)督學(xué)習(xí)。增強(qiáng)學(xué)習(xí)背后的人工智能深度學(xué)習(xí)原理初探 CNN http://blog.csdn.net/darkprin... http://blog.csdn.net/darkprin... http://blog.csdn.net/darkprin... http://blog.csdn....

    Berwin 評論0 收藏0
  • RNN CNN 機(jī)器學(xué)習(xí)

    摘要:監(jiān)督學(xué)習(xí)里典型的例子就是。這聽起來似乎有點(diǎn)不可思議,但是在我們自身認(rèn)識世界的過程中很多處都用到了無監(jiān)督學(xué)習(xí)。增強(qiáng)學(xué)習(xí)背后的人工智能深度學(xué)習(xí)原理初探 CNN http://blog.csdn.net/darkprin... http://blog.csdn.net/darkprin... http://blog.csdn.net/darkprin... http://blog.csdn....

    fxp 評論0 收藏0
  • 極驗(yàn)驗(yàn)證:淺析深度學(xué)習(xí)模型與應(yīng)用

    摘要:一時(shí)之間,深度學(xué)習(xí)備受追捧。百度等等公司紛紛開始大量的投入深度學(xué)習(xí)的應(yīng)用研究。極驗(yàn)驗(yàn)證就是將深度學(xué)習(xí)應(yīng)用于網(wǎng)絡(luò)安全防御,通過深度學(xué)習(xí)建模學(xué)習(xí)人類與機(jī)器的行為特征,來區(qū)別人與機(jī)器,防止惡意程序?qū)W(wǎng)站進(jìn)行垃圾注冊,撞庫登錄等。 2006年Geoffery ?Hinton提出了深度學(xué)習(xí)(多層神經(jīng)網(wǎng)絡(luò)),并在2012年的ImageNet競賽中有非凡的表現(xiàn),以15.3%的Top-5錯(cuò)誤率奪魁,比利用傳...

    王巖威 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<