成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

LSTM 和遞歸網(wǎng)絡(luò)基礎(chǔ)教程

Barrior / 2819人閱讀

摘要:前饋網(wǎng)絡(luò)的反向傳播從最后的誤差開始,經(jīng)每個隱藏層的輸出權(quán)重和輸入反向移動,將一定比例的誤差分配給每個權(quán)重,方法是計算權(quán)重與誤差的偏導(dǎo)數(shù),即兩者變化速度的比例。隨后,梯度下降的學(xué)習(xí)算法會用這些偏導(dǎo)數(shù)對權(quán)重進行上下調(diào)整以減少誤差。

目錄

前饋網(wǎng)絡(luò)

遞歸網(wǎng)絡(luò)

沿時間反向傳播

梯度消失與梯度膨脹

長短期記憶單元(LSTM)

涵蓋多種時間尺度

本文旨在幫助神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)者了解遞歸網(wǎng)絡(luò)的運作方式,以及一種主要的遞歸網(wǎng)絡(luò),即LSTM的功能和結(jié)構(gòu)。

遞歸網(wǎng)絡(luò)是一類人工神經(jīng)網(wǎng)絡(luò),用于識別諸如文本、基因組、手寫字跡、語音等序列數(shù)據(jù)的模式,或用于識別傳感器、股票市場、政府機構(gòu)產(chǎn)生的數(shù)值型時間序列數(shù)據(jù)。

遞歸網(wǎng)絡(luò)可以說是最強大的神經(jīng)網(wǎng)絡(luò),甚至可以將圖像分解為一系列圖像塊,作為序列加以處理。

由于遞歸網(wǎng)絡(luò)擁有一種特定的記憶模式,而記憶也是人類的基本能力之一,所以下文會時常將遞歸網(wǎng)絡(luò)與人腦的記憶活動進行類比(注 1)。

前饋網(wǎng)絡(luò)回顧

要理解遞歸網(wǎng)絡(luò),首先需要了解前饋網(wǎng)絡(luò)的基礎(chǔ)知識。這兩種網(wǎng)絡(luò)的名字都來自于它們通過一系列網(wǎng)絡(luò)節(jié)點數(shù)學(xué)運算來傳遞信息的方式。前饋網(wǎng)絡(luò)將信息徑直向前遞送(從不返回已經(jīng)過的節(jié)點),而遞歸網(wǎng)絡(luò)則將信息循環(huán)傳遞。

在前饋網(wǎng)絡(luò)中,樣例輸入網(wǎng)絡(luò)后被轉(zhuǎn)換為一項輸出;在進行有監(jiān)督學(xué)習(xí)時,輸出為一個標簽。也就是說,前饋網(wǎng)絡(luò)將原始數(shù)據(jù)映射到類別,識別出信號的模式,例如一張輸入圖像應(yīng)當給予“貓”還是“大象”的標簽。

我們用帶有標簽的圖像定型一個前饋網(wǎng)絡(luò),直到網(wǎng)絡(luò)在猜測圖像類別時的錯誤達到最少。將參數(shù),即權(quán)重定型后,網(wǎng)絡(luò)就可以對從未見過的數(shù)據(jù)進行分類。已定型的前饋網(wǎng)絡(luò)可以接受任何隨機的圖片組合,而輸入的第一張照片并不會影響網(wǎng)絡(luò)對第二張照片的分類??吹揭粡堌埖恼掌粫?dǎo)致網(wǎng)絡(luò)預(yù)期下一張照片是大象。

這是因為網(wǎng)絡(luò)并沒有時間順序的概念,它所考慮的輸入是當前所接受的樣例。前饋網(wǎng)絡(luò)仿佛患有短期失憶癥;它們只有早先被定型時的記憶。

遞歸網(wǎng)絡(luò)

遞歸網(wǎng)絡(luò)與前饋網(wǎng)絡(luò)不同,其輸入不僅包括當前所見的輸入樣例,還包括網(wǎng)絡(luò)在上一個時刻所感知到信息。以下是[由Elman提出的早期遞歸網(wǎng)絡(luò)]的示意圖(https://web.stanford.edu/group/pdplab/pdphandbook/handbookch8.html),圖中最下行的BTSXPE代表當前的輸入樣例,而CONTEXT UNIT則表示前一時刻的輸出。

遞歸網(wǎng)絡(luò)在第t-1個時間步的判定會影響其在隨后第t個時間步的判定。所以遞歸網(wǎng)絡(luò)有來自當下和不久之前的兩種輸入,此二者的結(jié)合決定了網(wǎng)絡(luò)對于新數(shù)據(jù)如何反應(yīng),與人類日常生活中的情形頗為相似。

遞歸網(wǎng)絡(luò)與前饋網(wǎng)絡(luò)的區(qū)別便在于這種不斷將自身上一刻輸出當作輸入的反饋循環(huán)。人們常說遞歸網(wǎng)絡(luò)是有記憶的。2 為神經(jīng)網(wǎng)絡(luò)添加記憶的目的在于:序列本身即帶有信息,而遞歸網(wǎng)絡(luò)能利用這種信息完成前饋網(wǎng)絡(luò)無法完成的任務(wù)。

這些順序信息保存在遞歸網(wǎng)絡(luò)隱藏狀態(tài)中,不斷向前層層傳遞,跨越許多個時間步,影響每一個新樣例的處理。

人類記憶會在體內(nèi)不斷進行不可見的循環(huán),對我們的行為產(chǎn)生影響而不顯現(xiàn)出完整樣貌,而信息也同樣會在遞歸網(wǎng)絡(luò)的隱藏狀態(tài)中循環(huán)。英語中有許多描述記憶反饋循環(huán)的說法。例如,我們會說“一個人被往日所為之事糾纏”,這其實就是在講過去的輸出對當前造成了影響。法國人稱之為“Le passé qui ne passe pas”,即“過去之事不曾過去”。

讓我們用數(shù)學(xué)語言來描述將記憶向前傳遞的過程:

第t個時間步的隱藏狀態(tài)是h_t。它是同一時間步的輸入x_t的函數(shù),由一個權(quán)重矩陣W(和我們在前饋網(wǎng)絡(luò)中使用的一樣)修正,加上前一時間步的隱藏狀態(tài)h_t-1乘以它自己的隱藏狀態(tài)-隱藏狀態(tài)矩陣的U(或稱過渡矩陣,與馬爾可夫鏈近似)。權(quán)重矩陣是決定賦予當前輸入及過去隱藏狀態(tài)多少重要性的篩選器。它們所產(chǎn)生的誤差將會通過反向傳播返回,用于調(diào)整權(quán)重,直到誤差不能再降低為止。

權(quán)重輸入與隱藏狀態(tài)之和用函數(shù)??進行擠壓-可能是邏輯S形函數(shù)(sigmoid函數(shù))或雙曲正切函數(shù),視具體情況而定-這是將很大或很小的值壓縮至一個邏輯空間內(nèi)的標準工具,同時也用于產(chǎn)生反向傳播所能接受的梯度。

由于這一反饋循環(huán)會在系列的每一個時間步發(fā)生,每一個隱藏狀態(tài)不僅僅跟蹤前一個隱藏狀態(tài),還包括了記憶能力范圍內(nèi)所有在h_t-1之前的狀態(tài)。

若輸入一系列字母,則遞歸網(wǎng)絡(luò)必定會根據(jù)第一個字符來決定對第二個字符的感知, 例如,第一個字母如果是q,網(wǎng)絡(luò)就可能推斷下一個字母是u,而第一個字母如果是t,則網(wǎng)絡(luò)可能推斷下一個字母是h。

由于遞歸網(wǎng)絡(luò)具有時間維度,所以可能用動畫示意更為清楚(最先出現(xiàn)的節(jié)點垂直線可被視為一個前饋網(wǎng)絡(luò),隨時間展開后變?yōu)檫f歸網(wǎng)絡(luò))。

在上圖中,每一個x都是一個輸入樣例,w是用于篩選輸入的權(quán)重,a是隱藏層的激活狀態(tài)(附加權(quán)重后的輸入與上一個隱藏狀態(tài)之和),而b則是隱藏層在轉(zhuǎn)換,或稱“擠壓”后的輸出,使用線性修正或sigmoid單位。

沿時間反向傳播(BPTT)

前文提到,遞歸網(wǎng)絡(luò)的目的是準確地對序列輸入進行分類。我們依靠誤差反向傳播和梯度下降來達成這一目標。

前饋網(wǎng)絡(luò)的反向傳播從最后的誤差開始,經(jīng)每個隱藏層的輸出、權(quán)重和輸入反向移動,將一定比例的誤差分配給每個權(quán)重,方法是計算權(quán)重與誤差的偏導(dǎo)數(shù)-a??E/a??w,即兩者變化速度的比例。隨后,梯度下降的學(xué)習(xí)算法會用這些偏導(dǎo)數(shù)對權(quán)重進行上下調(diào)整以減少誤差。

遞歸網(wǎng)絡(luò)則使用反向傳播的一種擴展方法,名為沿時間反向傳播,或稱BPTT。在這里,時間其實就表示為一系列定義完備的有序計算,將時間步依次連接,而這些計算就是反向傳播的全部內(nèi)容。

無論遞歸與否,神經(jīng)網(wǎng)絡(luò)其實都只是形如f(g(h(x)))的嵌套復(fù)合函數(shù)。增加時間要素僅僅是擴展了函數(shù)系列,我們用鏈式法則計算這些函數(shù)的導(dǎo)數(shù)。

截斷式BPTT

截斷式BPTT 是完整BPTT的近似方法,也是處理較長序列時的優(yōu)先選擇,因為時間步數(shù)量較多時,完整BPTT每次參數(shù)更新的正向/反向運算量會變的非常高。該方法的缺點是,由于截斷操作,梯度反向移動的距離有限,因此網(wǎng)絡(luò)能夠?qū)W習(xí)的依賴長度要短于完整的BPTT。

梯度消失(與膨脹)

像大多數(shù)神經(jīng)網(wǎng)絡(luò)一樣,遞歸網(wǎng)絡(luò)并非新事物。在上世紀九十年代早期,梯度消失問題成為影響遞歸網(wǎng)絡(luò)表現(xiàn)的重大障礙。

正如直線表示x如何隨著y的變化而改變,梯度表示所有權(quán)重隨誤差變化而發(fā)生的改變。如果梯度未知,則無法朝減少誤差的方向調(diào)整權(quán)重,網(wǎng)絡(luò)就會停止學(xué)習(xí)。

遞歸網(wǎng)絡(luò)在尋找最終輸出與許多時間步以前的事件之間的聯(lián)系時遇到了重大障礙,因為很難判斷應(yīng)當為遠距離的輸入賦予多少重要性。(這些輸入就像曾曾…曾祖父母一樣,不斷向前追溯時會迅速增多,而留下的印象通常很模糊。)

原因之一是, 神經(jīng)網(wǎng)絡(luò)中流動的信息會經(jīng)過許多級的乘法運算。

凡是學(xué)過復(fù)合利率的人都知道,任何數(shù)值,只要頻繁乘以略大于一的數(shù),就會增大到無法衡量的地步(經(jīng)濟學(xué)中的網(wǎng)絡(luò)效應(yīng)和難以避免的社會不平等背后正是這一簡單的數(shù)學(xué)真理)。反之亦然:將一個數(shù)反復(fù)乘以小于一的數(shù),也就會有相反的效果。賭徒要是每下一美元注都輸?shù)?7美分,那片刻就會傾家蕩產(chǎn)。

由于深度神經(jīng)網(wǎng)絡(luò)的層和時間步通過乘法彼此聯(lián)系,導(dǎo)數(shù)有可能消失或膨脹。

梯度膨脹時,每個權(quán)重就仿佛是一只諺語中提到的蝴蝶,所有的蝴蝶一齊扇動翅膀,就會在遙遠的地方引發(fā)一場颶風(fēng)。這些權(quán)重的梯度增大至飽和,亦即它們的重要性被設(shè)得過高。但梯度膨脹的問題相對比較容易解決,因為可以將其截斷或擠壓。而消失的梯度則有可能變得過小,以至于計算機無法處理,網(wǎng)絡(luò)無法學(xué)習(xí)-這個問題更難解決。

反復(fù)應(yīng)用sigmoid函數(shù)的結(jié)果如下圖所示。數(shù)據(jù)曲線越來越平緩,直至在較長的距離上無法檢測到斜度。梯度在經(jīng)過許多個層后消失的情況與此相似。

長短期記憶單元(LSTM)

九十年代中期,德國學(xué)者Sepp Hochreiter和Juergen Schmidhuber提出了遞歸網(wǎng)絡(luò)的一種變體,帶有所謂長短期記憶單元,或稱LSTM,可以解決梯度消失的問題。

LSTM可保留誤差,用于沿時間和層進行反向傳遞。LSTM將誤差保持在更為恒定的水平,讓遞歸網(wǎng)絡(luò)能夠進行許多個時間步的學(xué)習(xí)(超過1000個時間步),從而打開了建立遠距離因果聯(lián)系的通道。

LSTM將信息存放在遞歸網(wǎng)絡(luò)正常信息流之外的門控單元中。這些單元可以存儲、寫入或讀取信息,就像計算機內(nèi)存中的數(shù)據(jù)一樣。單元通過門的開關(guān)判定存儲哪些信息,以及何時允許讀取、寫入或清除信息。但與計算機中的數(shù)字式存儲器不同的是,這些門是模擬的,包含輸出范圍全部在0~1之間的sigmoid函數(shù)的逐元素相乘操作。相比數(shù)字式存儲,模擬值的優(yōu)點是可微分,因此適合反向傳播。

這些門依據(jù)接收到的信號而開關(guān),而且與神經(jīng)網(wǎng)絡(luò)的節(jié)點類似,它們會用自有的權(quán)重集對信息進行篩選,根據(jù)其強度和導(dǎo)入內(nèi)容決定是否允許信息通過。這些權(quán)重就像調(diào)制輸入和隱藏狀態(tài)的權(quán)重一樣,會通過遞歸網(wǎng)絡(luò)的學(xué)習(xí)過程進行調(diào)整。也就是說,記憶單元會通過猜測、誤差反向傳播、用梯度下降調(diào)整權(quán)重的迭代過程學(xué)習(xí)何時允許數(shù)據(jù)進入、離開或被刪除。

下圖顯示了數(shù)據(jù)在記憶單元中如何流動,以及單元中的門如何控制數(shù)據(jù)流動。

上圖中的內(nèi)容很多,如果讀者剛開始學(xué)習(xí)LSTM,別急著向下閱讀-請先花一些時間思考一下這張圖。只要幾分鐘,你就會明白其中的秘密。

首先,最底部的三個箭頭表示信息從多個點流入記憶單元。當前輸入與過去的單元狀態(tài)不只被送入記憶單元本身,同時也進入單元的三個門,而這些門將決定如何處理輸入。

圖中的黑點即是門,分別決定何時允許新輸入進入,何時清除當前的單元狀態(tài),以及/或何時讓單元狀態(tài)對當前時間步的網(wǎng)絡(luò)輸出產(chǎn)生影響。S_c是記憶單元的當前狀態(tài),而g_y_in是當前的輸入。記住,每個門都可開可關(guān),而且門在每個時間步都會重新組合開關(guān)狀態(tài)。記憶單元在每個時間步都可以決定是否遺忘其狀態(tài),是否允許寫入,是否允許讀取,相應(yīng)的信息流如圖所示。

圖中較大的黑體字母即是每項操作的結(jié)果。

下面是另一張圖,將簡單遞歸網(wǎng)絡(luò)(左)與LSTM單元(右)進行對比。藍線可忽略;圖例有助理解。

應(yīng)當注意的是,LSTM的記憶單元在輸入轉(zhuǎn)換中給予加法和乘法不同的角色。兩張圖中央的加號其實就是LSTM的秘密。雖然看起來異常簡單,這一基本的改變能幫助LSTM在必須進行深度反向傳播時維持恒定的誤差。LSTM確定后續(xù)單元狀態(tài)的方式并非將當前狀態(tài)與新輸入相乘,而是將兩者相加,這正是LSTM的特別之處。(當然,遺忘門依舊使用乘法。)

不同的權(quán)重集對輸入信息進行篩選,決定是否輸入、輸出或遺忘。遺忘門的形式是一個線性恒等函數(shù),因為如果門打開,則記憶單元的當前狀態(tài)就只會與1相乘,正向傳播一個時間步。

此外,講到簡單的竅門,將每個LSTM單元遺忘門的偏差設(shè)定為1,經(jīng)證明可以提升網(wǎng)絡(luò)表現(xiàn)。(但Sutskever建議將偏差設(shè)定5。)

你可能會問,如果LSTM的目的是將遠距離事件與最終的輸出聯(lián)系起來,那為什么需要有遺忘門?因為有時候遺忘是件好事。以分析一個文本語料庫為例,在到達文檔的末尾時,你可能會認為下一個文檔與這個文檔肯定沒有任何聯(lián)系,所以記憶單元在開始吸收下一個文檔的第一項元素前應(yīng)當先歸零。

在下圖中可以看到門的運作方式,其中橫線代表關(guān)閉的門,而空心小圓圈則代表打開的門。在隱藏層下方水平一行的橫線和圓圈就是遺忘門。

應(yīng)當注意的是,前饋網(wǎng)絡(luò)只能將一個輸入映射至一個輸出,而遞歸網(wǎng)絡(luò)則可以像上圖那樣將一個輸入映射至多個輸出(從一張圖像到標題中的許多詞),也可以進行多對多(翻譯)或多對一(語音分類)的映射。

涵蓋多種時間尺度和遠距離依賴

你可能還會問,輸入門阻止新數(shù)據(jù)進入記憶單元,輸出門阻止記憶單元影響RNN特定輸出,此時這兩種門確切的值如何呢?可以認為LSTM相當于允許一個神經(jīng)網(wǎng)絡(luò)同時在不同時間尺度上運行。

以一個人的人生為例,想象一下我們?nèi)绾我砸粋€時間序列的形式接收有關(guān)的這一人生不同數(shù)據(jù)流。就地理位置而言,每個時間步的位置對下一個時間步都相當重要, 所以地理位置的時間尺度就是始終對的信息保持開放。

假設(shè)這個人是位模范公民,每隔幾年就會投票。就民主生活的時間尺度而言,我們希望特別注意這個人在選舉前后所做的事,關(guān)注這個人在擱下重大議題、回歸日常生活之前的所作所為。我們不希望我們的政治分析被持續(xù)更新的地理位置信息所干擾。

如果這人還是個模范女兒,那我們或許可以增加家庭生活的時間尺度,了解到她打電話的模式是每周日一次,而每年過節(jié)期間電話量會大幅增加。這與政治活動周期和地理位置無關(guān)。

其他數(shù)據(jù)也是如此。音樂有復(fù)合節(jié)拍。文本包含按不同間隔反復(fù)出現(xiàn)的主題。股票市場和經(jīng)濟體在長期波動之余還會經(jīng)歷短期震蕩。這些事件同時在不同的時間尺度上進行,而LSTM可以涵蓋所有這些時間尺度。

門控遞歸單元(GRU)

門控遞歸單元(GRU)本質(zhì)上就是一個沒有輸出門的LSTM,因此它在每個時間步都會將記憶單元中的所有內(nèi)容寫入整體網(wǎng)絡(luò)。

LSTM超參數(shù)調(diào)試

以下是手動優(yōu)化RNN超參數(shù)時需要注意的一些事:

小心出現(xiàn)過擬合,這通常是因為神經(jīng)網(wǎng)絡(luò)在“死記”定型數(shù)據(jù)。過擬合意味著定型數(shù)據(jù)的表現(xiàn)會很好,但網(wǎng)絡(luò)的模型對于樣例以外的預(yù)測則完全無用。

正則化有好處:正則化的方法包括l1、l2和丟棄法等。

保留一個神經(jīng)網(wǎng)絡(luò)不作定型的多帶帶測試集。

網(wǎng)絡(luò)越大,功能越強,但也更容易過擬合。不要嘗試用10,000個樣例來學(xué)習(xí)一百萬個參數(shù)參數(shù) > 樣例數(shù) = 問題。

數(shù)據(jù)基本上總是越多越好,因為有助于防止過擬合。

定型應(yīng)當包括多個epoch(使用整個數(shù)據(jù)集定型一次)。

每個epoch之后,評估測試集表現(xiàn),判斷何時停止(提前停止)。

學(xué)習(xí)速率是更為重要的超參數(shù)??捎胐eeplearning4j-ui調(diào)試;

總體而言,堆疊層是有好處的。

對于LSTM,可使用softsign(而非softmax)激活函數(shù)替代tanh(更快且更不容易出現(xiàn)飽和(約0梯度))。

更新器:RMSProp、AdaGrad或momentum(Nesterovs)通常都是較好的選擇。AdaGrad還能衰減學(xué)習(xí)速率,有時會有幫助。

最后,記住數(shù)據(jù)標準化、MSE損失函數(shù) + 恒等激活函數(shù)用于回歸、Xavier權(quán)重初始化

1) 雖然遞歸網(wǎng)絡(luò)可能距離通用人工智能還很遙遠,但我們相信,智能實際上比我們所想的要“笨”。也就是說,有了簡單的反饋循環(huán)作為記憶,我們就有了意識的基本元素之一-一項必要但不充分條件。上文沒有提到的其他條件可能包括表示網(wǎng)絡(luò)及其狀態(tài)的額外變量,以及基于數(shù)據(jù)解釋的決策邏輯框架。理想狀態(tài)下,后者會成為一個更大的問題解決循環(huán)的一部分,獎勵成功,懲罰失敗,與強化學(xué)習(xí)十分相似。話說,DeepMind已經(jīng)造出了這樣的框架……

2) 所有參數(shù)經(jīng)過優(yōu)化的神經(jīng)網(wǎng)絡(luò)在某種意義上都具有記憶,因為這些參數(shù)是過往數(shù)據(jù)的痕跡。但在前饋網(wǎng)絡(luò)中,這種記憶可能被凍結(jié)在了過去。也就是說,當網(wǎng)絡(luò)定型后,它所學(xué)習(xí)的模型可能被應(yīng)用于更多數(shù)據(jù),而不再對自身進行調(diào)整。此外,這類網(wǎng)絡(luò)也具有單體性,即將同樣的記憶(或權(quán)重集)應(yīng)用于所有輸入數(shù)據(jù)。遞歸網(wǎng)絡(luò)有時也稱為動態(tài)(意為:“不斷變化的”)神經(jīng)網(wǎng)絡(luò),它與前饋網(wǎng)絡(luò)的較大區(qū)別不在于擁有記憶,而是它能夠?qū)⑻囟?quán)重賦予以序列方式發(fā)生的多個事件。雖然這些事件不一定需要緊密相連,但網(wǎng)絡(luò)會假定它們都被同一根時間線聯(lián)系起來,不論距離多遠。前饋網(wǎng)絡(luò)則不會進行這樣的假設(shè)。它們將世界視為不具備時間次序的一堆對象。將這兩種神經(jīng)網(wǎng)絡(luò)與兩種人類知識做類比可能會有助于理解。小時候,我們學(xué)習(xí)辨認顏色,然后我們這一輩子不論在何處都能認出各種顏色,在差別極大的各類情景中都是如此,也不受時間影響。顏色我們只需要學(xué)習(xí)一次。這種知識就像是前饋網(wǎng)絡(luò)的記憶:它們依賴于一種沒有范圍、無限定的過往信息。它們不知道也不關(guān)心五分鐘之前輸入的是什么顏色。前饋網(wǎng)絡(luò)有短期失憶癥。而另一方面,我們小時候還會學(xué)習(xí)如何解讀名為語言的聲音信號流,我們從這些聲音中提取出的意義,比如“toe”、“roe”或“z”,始終高度依賴于在其前后出現(xiàn)的聲音信號。序列的每一步都建立在前一步的基礎(chǔ)上,而意義產(chǎn)生于它們的順序。的確,句子中每個音節(jié)的意義是由許多個整句所共同傳達的,而句子中的冗余信號則是抵抗環(huán)境噪聲的保護。遞歸網(wǎng)絡(luò)的記憶與此類似,它們依賴的是過往信息中的一個特定片段。兩種網(wǎng)絡(luò)以不同的方式讓不同的過往信息發(fā)揮作用。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4391.html

相關(guān)文章

  • 關(guān)于LSTM的一系列學(xué)習(xí)

    摘要:設(shè)計用于處理序列依賴性的強大類型的神經(jīng)網(wǎng)絡(luò)稱為復(fù)現(xiàn)神經(jīng)網(wǎng)絡(luò)。你會知道關(guān)于國際航空公司乘客時間序列預(yù)測問題。感謝所有指出這個問題的人和菲利普奧布萊恩幫助提出的解決方案。 段哥http://machinelearningmastery... Time Series Prediction with LSTM Recurrent Neural Networks in Python with K...

    lykops 評論0 收藏0
  • 首次超越LSTM : Facebook 門卷積網(wǎng)絡(luò)新模型能否取代遞歸模型?

    摘要:得到的結(jié)果如下上圖是門卷積神經(jīng)網(wǎng)絡(luò)模型與和模型在數(shù)據(jù)集基準上進行測試的結(jié)果。雖然在這一研究中卷積神經(jīng)網(wǎng)絡(luò)在性能上表現(xiàn)出了對遞歸神經(jīng)網(wǎng)絡(luò),尤其是的全面超越,但是,現(xiàn)在談取代還為時尚早。 語言模型對于語音識別系統(tǒng)來說,是一個關(guān)鍵的組成部分,在機器翻譯中也是如此。近年來,神經(jīng)網(wǎng)絡(luò)模型被認為在性能上要優(yōu)于經(jīng)典的 n-gram 語言模型。經(jīng)典的語言模型會面臨數(shù)據(jù)稀疏的難題,使得模型很難表征大型的文本,...

    高勝山 評論0 收藏0
  • 遞歸的藝術(shù) - 深度遞歸網(wǎng)絡(luò)在序列式推薦的應(yīng)用

    摘要:因為在每一時刻對過去的記憶信息和當前的輸入處理策略都是一致的,這在其他領(lǐng)域如自然語言處理,語音識別等問題不大,但并不適用于個性化推薦,一個用戶的聽歌點擊序列,有正負向之分。 在內(nèi)容爆炸性增長的今天,個性化推薦發(fā)揮著越來越重要的作用,如何在海量的數(shù)據(jù)中幫助用戶找到感興趣的物品,成為大數(shù)據(jù)領(lǐng)域極具挑戰(zhàn)性的一項工作;另一方面,深度學(xué)習(xí)已經(jīng)被證明在圖像處理,計算機視覺,自然語言處理等領(lǐng)域都取得了不俗...

    ZweiZhao 評論0 收藏0
  • 難以置信!LSTMGRU的解析從未如此清晰

    摘要:作為解決方案的和和是解決短時記憶問題的解決方案,它們具有稱為門的內(nèi)部機制,可以調(diào)節(jié)信息流。隨后,它可以沿著長鏈序列傳遞相關(guān)信息以進行預(yù)測,幾乎所有基于遞歸神經(jīng)網(wǎng)絡(luò)的技術(shù)成果都是通過這兩個網(wǎng)絡(luò)實現(xiàn)的。和采用門結(jié)構(gòu)來克服短時記憶的影響。 短時記憶RNN 會受到短時記憶的影響。如果一條序列足夠長,那它們將很難將信息從較早的時間步傳送到后面的時間步。 因此,如果你正在嘗試處理一段文本進行預(yù)測,RNN...

    MrZONT 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<