成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

遞歸的藝術 - 深度遞歸網(wǎng)絡在序列式推薦的應用

ZweiZhao / 1070人閱讀

摘要:因為在每一時刻對過去的記憶信息和當前的輸入處理策略都是一致的,這在其他領域如自然語言處理,語音識別等問題不大,但并不適用于個性化推薦,一個用戶的聽歌點擊序列,有正負向之分。

在內(nèi)容爆炸性增長的今天,個性化推薦發(fā)揮著越來越重要的作用,如何在海量的數(shù)據(jù)中幫助用戶找到感興趣的物品,成為大數(shù)據(jù)領域極具挑戰(zhàn)性的一項工作;另一方面,深度學習已經(jīng)被證明在圖像處理,計算機視覺,自然語言處理等領域都取得了不俗的效果,但在個性化推薦領域,工程應用仍然相對空白。

本文是深度學習在個性化推薦實踐應用的第二篇,在第一篇中,我詳述了如何利用歷史沉淀數(shù)據(jù)挖掘用戶的隱藏特征,本文在上一篇的基礎上進行延伸,詳細分析如何利用LSTM,即長短時記憶網(wǎng)絡來進行序列式的推薦。

1、從RBM,RNN到LSTM:

根據(jù)用戶的長期歷史數(shù)據(jù)來挖掘隱特征是協(xié)同過濾常用的方法,典型的算法有基于神經(jīng)網(wǎng)絡的受限玻爾茲曼機 (RBM),基于矩陣分解的隱語義模型等。歷史的數(shù)據(jù)反映了用戶的長期興趣,但在很多推薦場景下,我們發(fā)現(xiàn)推薦更多的是短時間內(nèi)的一連串點擊行為,例如在音樂的聽歌場景中,用戶的聽歌時間往往比較分散,有可能一個月,甚至更長的時間間隔才會使用一次,但每一次使用都會產(chǎn)生一連串的點擊序列,并且在諸如音樂等推薦領域中,受環(huán)境心情的影響因素很大,因此,在這種推薦場景下,基于用戶的短期會話行為(session-based) 能夠更好的捕獲用戶當前的情感變化。

另一方面,通過用戶的反饋,我們也不難發(fā)現(xiàn),用戶的序列點擊行為并不是孤立的,當前的點擊行為往往是受到之前的結果影響,同理,當前的反饋也能夠影響到今后的決策,長期歷史數(shù)據(jù)的隱特征挖掘無法滿足這些需求。

RNN是解決序列性相關問題的常用網(wǎng)絡模型,通過展開操作,可以從理論上把網(wǎng)絡模型擴展為無限維,也就是無限的序列空間,如下圖所示:

與CNN的參數(shù)共享原理一樣,RNN網(wǎng)絡在每一時刻也會共享相同的網(wǎng)絡權重參數(shù),這時因為網(wǎng)絡在時間序列的不同時刻執(zhí)行的是相同任務。在實際建模中,每一階段的網(wǎng)絡結構由輸入層,embedding層,1到多個LSTM層(可以選擇dropout)和層次softmax輸出層構成,如下圖所示,每一部分的設計思路將在后面詳細講述。

2、三“門”狀態(tài)邏輯設計

從理論的角度來分析,傳統(tǒng)的RNN采用BPTT (Backpropagation Through Time)來進行梯度求導,對V的求導較為簡單直接,但對W和U的求導會導致梯度消失(Vanishing Gradients)問題,梯度消失的直接后果是無法獲取過去的長時間依賴信息。

從個性化推薦的角度來看,傳統(tǒng)的RNN還有另外一個缺點。因為RNN在每一時刻對過去的記憶信息和當前的輸入處理策略都是一致的,這在其他領域(如自然語言處理,語音識別等)問題不大,但并不適用于個性化推薦,一個用戶的聽歌點擊序列,有正負向之分。正向的數(shù)據(jù),包括諸如聽歌時長較長的歌曲,收藏,下載等;負向的聽歌,包括了跳過,刪除等,因此,在每一時刻的訓練,需要對當前的輸入數(shù)據(jù)有所區(qū)分,如果當前時刻是正向的歌曲,應該能夠對后面的推薦策略影響較大,相反,如果當前時刻是負向的歌曲,應該對后面的策略影響小,或者后面的推薦策略應該避免類似的歌曲出現(xiàn)。

LSTM (長短時記憶網(wǎng)絡)是對傳統(tǒng)RNN的改進,通過引入cell state來保留過去的記憶信息,避免BPTT導致的梯度消失問題,同時,針對前面提到的個性化推薦的獨有特點,我們對長短時記憶網(wǎng)絡也進行了修改,下面來詳細分析如何在個性化推薦中設計合理的門邏輯:

Forget gate (忘記門):這一步是首先決定要從前面的“記憶”中丟棄哪些信息或丟棄多少信息,比如,之前可能對某一位歌手或者某一個流派的歌曲特別感興趣,這種正向操作的記憶需要得到保留,并且能夠影響今后的決策?!伴T”開關通過sigmoid函數(shù)來實現(xiàn),當函數(shù)值越接近于1時,表示當前時刻保留的記憶信息就越多,并把這些記憶帶到下一階段;當函數(shù)值接近于0時,表示當前時刻丟棄的記憶就越多。

Input gate(輸入門): 這一步由兩部分構成,第一部分是決定當前時刻的歌曲有多少信息會被加入到新的記憶中,如果是正向的歌曲,傳遞的信息就會越多,相反,對于負向歌曲,傳遞的信息就會越少。

第二部分是當前階段產(chǎn)生的真實數(shù)據(jù)信息,它是通過tanh函數(shù)把前面的記憶與當前的輸入相結合而得到。

經(jīng)過前面兩個門的設計,我們可以對cell state進行更新,把舊的記憶狀態(tài)通過與forget gate相結合,丟棄不需要的信息,把當前的輸入信息與input gate相結合,加入新的輸入數(shù)據(jù)信息,如下圖所示:

output gate (輸出門):這一步是把前面的記憶更新輸出,通過輸出門開關來控制記憶流向下一步的大小,確定哪些信息適合向后傳播。

到此為止,序列中每一階段的門邏輯設計也完成了,最終的LSTM層設計如下圖所示:

小技巧:在代碼實現(xiàn)的時候,我們應該能夠發(fā)現(xiàn)上面提到的三個門運算和cell state的計算除了激活函數(shù)稍有不同外,它們具有下面的相同線性操作公式:

經(jīng)過這樣的改造后,原來需要多帶帶執(zhí)行四步的操作,現(xiàn)在只需要一次矩陣運算就能完成,這一技巧使得訓練速度提升非常明顯。

3、時序規(guī)整與并行化設計

普通的遞歸網(wǎng)絡(或者是其變種,LSTM,GRU等)每一次訓練會因為訓練數(shù)據(jù)間的序列長度不相等,需要多帶帶訓練,對于上億條的流水訓練數(shù)據(jù)來說,這種做法顯然是不可行的,為此我們需要對輸入數(shù)據(jù)做時序的補齊,具體來說就是把batch_size的訓練樣本集中起來,取點擊最長的序列長度作為矩陣的行數(shù),其余樣本數(shù)據(jù)用0來補齊。

下面通過一個具體例子來形象的描述這個過程,下圖是從騰訊QQ音樂抽取的部分聽歌訓練樣本,為了便于理解,這里只選擇batch_size的大小為5,最長的點擊序列是8。

由訓練數(shù)據(jù),我們得到對應的掩碼(mask)為:

掩碼的設計為我們解決了不同用戶聽歌序列不相同的問題,讓多個用戶的聽歌數(shù)據(jù)同時進行矩陣運算,但卻產(chǎn)生了另外一個問題,在每一次LSTM層訓練的時候,狀態(tài)遷移輸出和隱藏層結點輸出計算是全局考慮的,對于當前用0來padding的訓練樣本,理論上是不應該進行更新,如何解決這一個問題呢?

利用動態(tài)規(guī)劃的思想可以優(yōu)雅的解決這個問題,當我們計算出當前階段的cell state和隱藏層結點輸出后,把當前的狀態(tài)輸出與前一個狀態(tài)輸出作線性的組合,具體來說,假如當前正在更新第T次點擊狀態(tài)。

右式由兩部分構成,加號左邊,如果mask的值為1,更新當前狀態(tài),加號右邊,如果mask為0,那么狀態(tài)退回到最后一個非0態(tài)。如下圖所示:當運行到T7時,對于sample1和sample3都是直接更新新數(shù)據(jù),對于sample2,sample4和sample5則執(zhí)行回溯。

4、Dropout-深度學習正則化的利器

正則化是機器學習中常用來解決過擬合的技巧,在深度學習領域,神經(jīng)網(wǎng)絡的參數(shù)更多,更深,結構也更復雜,而往往訓練樣本相對較少,過擬合的問題會更加嚴重。較為常見的正則化方法包括:對單模型,比如當驗證集的效果變化不明顯的時候我們可以提前終止迭代,或者采用L1正則化和L2正則化等;對多模型,我們可以利用boosting來集成提升,但在深度學習中,這種方法是不現(xiàn)實的,因為單個模型的訓練已經(jīng)非常復雜耗時,并且即使訓練出多個網(wǎng)路模型,也難以在實際環(huán)境中做到快速集成。

Dropout結合了單模型和多模型的優(yōu)點,是深度學習領域解決過擬合的強有力武器,前面提到,如果不考慮時間復雜度的前提下,可以通過訓練多個不同的網(wǎng)絡模型來集成提升效果,網(wǎng)路結構之間差別越大,提升效果也會越明顯,可以假設一個神經(jīng)網(wǎng)絡中有n個不同神經(jīng)元,那么相當于有2n個不同的網(wǎng)絡結構,如下圖所示:

Dropout的思想是每一迭代的過程中,我們會隨機讓網(wǎng)絡某些節(jié)點 (神經(jīng)元) 不參與訓練,同時把與這些暫時丟棄的神經(jīng)元(如下圖的黑色結點)相關的所有邊全部去掉,相應的權重不會在這一次的迭代中更新,每一次迭代訓練我們都重復這個操作。需要注意的是這些被丟棄的的神經(jīng)元只是暫時不做更新,下一次還是會重新參與隨機化的dropout。

Hinton給出了dropout隨機化選擇的概率,對于隱藏層,一般取P=0.5,在大部分網(wǎng)絡模型中,能達到或接近最優(yōu)的效果,而對于輸入層,被選中的概率要比被丟棄的概率要大,一般被選中的概率大約在P=0.8左右。在具體實現(xiàn)的時候,我并沒有對輸入層做dropout,在隱藏層取概率為0.5來進行正則化。

從理論角度來說,這個做法的巧妙之處在于,每一次的訓練,網(wǎng)絡都會丟棄部分的神經(jīng)元,也就是相當于我們每一次迭代都在訓練不同的網(wǎng)絡結構,這樣同一個模型多次dropout迭代訓練便達到了多模型融合的效果。

Hinton在其論文中還對dropout給出了一種很有意思的生物學的解析,也就是為什么有性繁殖會比無性繁殖更能適應環(huán)境的變化,無性繁殖從母體中直接產(chǎn)生下一代,能保持母體的優(yōu)良特性,不容易發(fā)生變異,但也因此造成了適應新環(huán)境能力差的缺點,而為了避免環(huán)境改變時物種可能面臨的滅亡(相當于過擬合),有性繁殖除了會分別吸收父體和母體的基因之外,還會為了適應新環(huán)境而進行一定的基因變異。

5、Hierarchical softmax輸出

最后的一個難點問題是推薦結果的輸出。對于常規(guī)的輸出層,一般是采用softmax函數(shù)建模,當輸出數(shù)據(jù)很少,比如只有幾千個候選數(shù)據(jù),那么softmax的計算是很方便簡單的,但對于上百萬甚至上千萬的推薦數(shù)據(jù),這種方法就會成為訓練效率的一個瓶頸。有什么好的方法可以解決這個問題呢?Hierarchical softmax是深度學習中解決高維度輸出的一個技巧,在NLP領域,經(jīng)典的word2vec就采用Hierarchical softmax來對輸出層進行建模,我們也借助同樣的思想,把Hierarchical softmax應用于推薦數(shù)據(jù)的輸出選擇。

首先來簡要的回顧Hierarchical softmax的原理,如果輸出層是常規(guī)的softmax輸出,假設有V個候選輸出數(shù)據(jù),那么,每一時刻的輸出都需要計算P(vi|ht),時間復雜度為O(V), Hierarchical softmax的思想是構建一顆哈夫曼樹,我在應用中使用歌曲的熱度作為初始權值來構建哈夫曼樹,哈夫曼樹構建完成后,可以得到每一首歌曲對應的哈夫曼編碼。從而把softmax輸出層轉化為Hierarchical softmax,即多層次輸出,如下圖所示:

對于任意的輸出數(shù)據(jù),哈夫曼樹都必然存在一條從根節(jié)點到葉子結點(歌曲)的路徑,并且該路徑是的,從根結點到葉子結點會產(chǎn)生L-1個分支,每一個分支都可以看成是一個二元分類,每一個分類會產(chǎn)生一個概率,將這些概率相乘就是我們最后的預測值。

通過層次softmax求取概率,時間復雜度從原來的O(V)下降為O(log(V))。

關于推薦輸出,除了顯式求解每一首歌的輸出概率之外,我還嘗試了采用流派來進行層次softmax建模,事實上,在線上環(huán)境中,很多時候不需要較精確到具體的歌曲,在輸出層,我們可以按流派層次來建模,第一層是一級流派標簽,選擇了一級標簽之后,進入二級標簽的選擇,三級標簽的選擇等等,一般來說標簽的數(shù)量相對歌曲總量來說要少很多,但這種方法也要求標簽和曲庫的體系建設做到比較完善。

6、測試效果

模型訓練目標是最小化下式的損失函數(shù),目標函數(shù)由兩部分構成,分別對應于正向數(shù)據(jù)集和負向數(shù)據(jù)集。

在測試中,我們收集了QQ音樂最近的電臺聽歌記錄,共約8千萬條聽歌序列,并對數(shù)據(jù)做了必要的預處理操作,主要包括下面兩點:

去掉了點擊序列小于5首,大于50首的聽歌數(shù)據(jù),去掉序列過少是為了防止誤點擊,去掉過長的聽歌序列是為了防止用戶忘記關掉播放器。

對于全部是5秒內(nèi)跳過的聽歌序列也同樣去掉,這樣可以有效防止不正當?shù)呢摬僮鬟^多對模型訓練產(chǎn)生的影響。

代碼采用Theano深度學習框架來實現(xiàn),Theano也是當前對RNN支持較好的深度學習框架之一,它的scan機制使得RNN (包括LSTM, GRU) 的實現(xiàn)代碼非常優(yōu)雅。下圖是核心遞歸代碼生成的圖結構:

我們分別采用單層LSTM和兩層LSTM來訓練,通過測試對比,兩層的LSTM效果要比單層的提高5%,同時我們也采用dropout來防止過擬合,dropout的效果還是比較明顯,在lr和momentum相同的情況下,取p=0.5, 效果進一步提升了3%。

除了前面提到的一些技巧外,還有很多細節(jié)能幫助我們提高網(wǎng)絡的訓練速度,下面是我用到的其中一些技巧:

【1】Theano的cuda backend當前只支持float32,需要將floatX設置為float32,并且將全部的shared變量設置為float32。

【2】權重參數(shù)盡量放在non_sequences中,作為參數(shù)傳遞給遞歸函數(shù),這樣防止每一次迭代的時候都需要把參數(shù)反復重新導入計算圖中。

【3】為了避免數(shù)據(jù)在顯存和內(nèi)存之間頻繁的交互,我大量采用了sandbox.gpu_from_host來存儲結果數(shù)據(jù),但也對可移植性造成一定的影響。

【4】最后,theano的調(diào)試是不方便的,靈活使用eval和compute_test_value來調(diào)試theano。

對于新數(shù)據(jù)的預測,如下圖所示,給出初始的歌曲X0, 模型就能連續(xù)生成輸出序列,但有一點需要注意的是,與數(shù)據(jù)訓練不同,新數(shù)據(jù)的生成過程中,當前階段的輸出數(shù)據(jù)也是下一階段的輸入數(shù)據(jù)。

7、小結

本文是深度學習在智能推薦的第二篇實踐文章,詳細解析了如何使用LSTM對用戶的點擊進行序列建模,具體包括了如何設計lstm的門邏輯,以更好適應個性化推薦場景,dropout正則化,序列的規(guī)整,以及層次softmax解決高維度的推薦結果輸出。

隨著個性化推薦的不斷發(fā)展,推薦也早已不局限于淺層的用戶和物品挖掘,但對用戶行為的挖掘是一個相對困難的問題,我們也將會繼續(xù)探索深度學習在個性化推薦領域的研究與落地應用。

參考文獻:

【1】Erik Bernhardsson. Recurrent Neural Networks for Collaborative Filtering at Spotify.?

【2】Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, Domonkos Tikk. Session-based Recommendations with Recurrent Neural Networks.

【3】David Zhan Liu, Gurbir Singh. A Recurrent Neural Network Based Recommendation System.

【4】WILDML. RECURRENT NEURAL NETWORKS TUTORIAL.

【5】Andrej Karpathy. The Unreasonable Effectiveness of Recurrent Neural Networks.

【6】Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov. Dropout: A Simple Way to Prevent Neural Networks from Overfitting.

【7】https://www.quora.com/Has-there-been-any-work-on-using-deep-learning-for-recommendation-engines.

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識

QQ群:81035754

文章版權歸作者所有,未經(jīng)允許請勿轉載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉載請注明本文地址:http://systransis.cn/yun/4416.html

相關文章

  • arXiv上五篇頂尖深度學習論文都講了些什么?

    摘要:自從年深秋,他開始在上撰寫并公開分享他感興趣的機器學習論文。本文選取了上篇閱讀注釋的機器學習論文筆記。希望知名專家注釋的深度學習論文能使一些很復雜的概念更易于理解。主要講述的是奧德賽因為激怒了海神波賽多而招致災禍。 Hugo Larochelle博士是一名謝布克大學機器學習的教授,社交媒體研究科學家、知名的神經(jīng)網(wǎng)絡研究人員以及深度學習狂熱愛好者。自從2015年深秋,他開始在arXiv上撰寫并...

    WilsonLiu95 評論0 收藏0
  • Nature重磅:Hinton、LeCun、Bengio三巨頭權威科普深度學習

    摘要:機器學習系統(tǒng)被用來識別圖像中的物體將語音轉為文本,根據(jù)用戶興趣自動匹配新聞消息或產(chǎn)品,挑選相關搜索結果。而深度學習的出現(xiàn),讓這些問題的解決邁出了至關重要的步伐。這就是深度學習的重要優(yōu)勢。 借助深度學習,多處理層組成的計算模型可通過多層抽象來學習數(shù)據(jù)表征( representations)。這些方法顯著推動了語音識別、視覺識別、目標檢測以及許多其他領域(比如,藥物發(fā)現(xiàn)以及基因組學)的技術發(fā)展。...

    GT 評論0 收藏0
  • Deeplearning4j—分布深度學習庫

    摘要:簡稱是為和編寫的較早的商業(yè)級開源分布式深度學習庫。這一靈活性使用戶可以根據(jù)所需,在分布式生產(chǎn)級能夠在分布式或的基礎上與和協(xié)同工作的框架內(nèi),整合受限玻爾茲曼機其他自動編碼器卷積網(wǎng)絡或遞歸網(wǎng)絡。 Deeplearning4j(簡稱DL4J)是為Java和Scala編寫的較早的商業(yè)級開源分布式深度學習庫。DL4J與Hadoop和Spark集成,為商業(yè)環(huán)境(而非研究工具目的)所設計。Skymind是...

    imtianx 評論0 收藏0
  • 從圖像到知識:深度神經(jīng)網(wǎng)絡實現(xiàn)圖像理解原理解析

    摘要:本文將詳細解析深度神經(jīng)網(wǎng)絡識別圖形圖像的基本原理。卷積神經(jīng)網(wǎng)絡與圖像理解卷積神經(jīng)網(wǎng)絡通常被用來張量形式的輸入,例如一張彩色圖象對應三個二維矩陣,分別表示在三個顏色通道的像素強度。 本文將詳細解析深度神經(jīng)網(wǎng)絡識別圖形圖像的基本原理。針對卷積神經(jīng)網(wǎng)絡,本文將詳細探討網(wǎng)絡 中每一層在圖像識別中的原理和作用,例如卷積層(convolutional layer),采樣層(pooling layer),...

    UnixAgain 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<