成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

一文讀懂貝葉斯推理問題:MCMC方法和變分推斷

msup / 3064人閱讀

摘要:本文將討論兩種可用于解決貝葉斯推理問題的主要方法基于采樣的馬爾可夫鏈蒙特卡羅,簡稱方法和基于近似的變分推理,簡稱方法。而貝葉斯推理則是從貝葉斯的角度產(chǎn)生統(tǒng)計推斷的過程。貝葉斯推理問題還可能會產(chǎn)生一些其他的計算困難。

全文共6415字,預(yù)計學(xué)習(xí)時長20分鐘或更長

圖片來源:pexels.com/@lum3n-com-44775

貝葉斯推理(Bayesian inference)是統(tǒng)計學(xué)中的一個重要問題,也是許多機(jī)器學(xué)習(xí)方法中經(jīng)常遇到的問題。例如,用于分類的高斯混合模型或用于主題建模的潛在狄利克雷分配(Latent Dirichlet Allocation,簡稱LDA)模型等概率圖模型都需要在擬合數(shù)據(jù)時解決這一問題。

同時,由于模型設(shè)置(假設(shè)、維度……)不同,貝葉斯推理問題有時會很難解決。在解決大型問題時,精確的方案往往需要繁重的計算,要完成這些難以處理的計算,必須采用一些近似技術(shù),并構(gòu)建快速且有可擴(kuò)展性的系統(tǒng)。

本文將討論兩種可用于解決貝葉斯推理問題的主要方法:基于采樣的馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo,簡稱MCMC)方法和基于近似的變分推理(Variational Inference,簡稱VI)方法。

本文第一部分將討論貝葉斯推理問題,并介紹幾個機(jī)器學(xué)習(xí)應(yīng)用的經(jīng)典案例,當(dāng)然,這些案例中會出現(xiàn)貝葉斯推理問題。第二部分將全面介紹用于解決該問題的MCMC技術(shù),并詳細(xì)介紹其中的兩種算法:Metropolis-Hasting算法和吉布斯采樣(Gibbs Sampling)算法。最后,第三部分將介紹變分推斷,并了解如何通過優(yōu)化參數(shù)化數(shù)族分布得到近似解。

注意,以a(∞)為標(biāo)記的小節(jié)數(shù)學(xué)專業(yè)性非常強(qiáng),跳過也不會影響對本文的整體理解。還要注意,本文中的p(.)可以用來表示概率、概率密度或概率分布,具體含義取決于上下文。

貝葉斯推理問題

這一部分提出了貝葉斯推理問題,討論了一些計算困難,并給出了LDA算法的例子。LDA算法是一種具體的主題建模機(jī)器學(xué)習(xí)技術(shù),能夠反映貝葉斯推理問題。

統(tǒng)計推斷旨在根據(jù)可觀察到的事物來了解不可觀察到的事物。即,統(tǒng)計推斷是基于一個總體或一些樣本中的某些觀察變量(通常是影響)得出結(jié)論的過程,例如關(guān)于總體或樣本中某些潛在變量(通常是原因)的準(zhǔn)時估計、置信區(qū)間或區(qū)間估計等。

而貝葉斯推理則是從貝葉斯的角度產(chǎn)生統(tǒng)計推斷的過程。簡而言之,貝葉斯范式是一種統(tǒng)計/概率范式,在這種范式中,每次記錄新的觀測數(shù)據(jù)時就會更新由概率分布建模的先驗知識,觀測數(shù)據(jù)的不確定性則由另一個概率分布建模。支配貝葉斯范式的整個思想嵌入在所謂的貝葉斯定理中,該定理表達(dá)了更新知識(“后驗”)、已知知識(“先驗”)以及來自觀察的知識(“可能性”)之間的關(guān)系。

一個經(jīng)典的例子是用貝葉斯推理進(jìn)行參數(shù)估計。假設(shè)一個模型中數(shù)據(jù)x是根據(jù)未知參數(shù)θ的概率分布生成的,并且有關(guān)于參數(shù)θ的先驗知識,可以用概率分布p(θ)來表示。那么,當(dāng)觀察到數(shù)據(jù)x時,我們可以使用貝葉斯定理更新關(guān)于該參數(shù)的先驗知識,如下所示:

貝葉斯定理應(yīng)用于給定觀測數(shù)據(jù)的參數(shù)推斷的說明。

計算困難

根據(jù)貝葉斯定理,后驗分布的計算需要三個條件:先驗分布、可能性和證據(jù)。前兩個條件很容易理解,因為它們是假設(shè)模型的一部分(在許多情況下,先驗分布和可能性是顯而易見的)。然而,第三個條件,即歸一化因子,需要如下計算:

雖然在低維中,這個積分可以較容易地計算出來,但在高維中它會變得難以處理。在上述案例中,對后驗分布進(jìn)行精確計算是不可行的,必須使用一些近似技術(shù)(例如平均計算)來獲得后驗分布。

貝葉斯推理問題還可能會產(chǎn)生一些其他的計算困難。例如,當(dāng)某些變量是離散的時候會產(chǎn)生組合學(xué)問題。馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo,簡稱MCMC)和變分推理(Variational Inference,簡稱VI)是最常用于解決這些問題的兩種方法。下文將描述這兩種方法,尤其關(guān)注“歸一化因子問題”,但是應(yīng)該記住,這些方法也可用于與貝葉斯推理相關(guān)的其他計算困難。

為了讓接下來的章節(jié)更易于理解,可以觀察到,由于x應(yīng)該是給定的,因此可以作為參數(shù),那么,θ的概率分布則被定義為歸一化因子

在描述MCMC和VI兩個部分之前,先來看一個具體例子,了解在機(jī)器學(xué)習(xí)LDA中存在的貝葉斯推理問題。

舉例

貝葉斯推理問題通常出現(xiàn)在需要假設(shè)概率圖模型或根據(jù)給定觀測值得出模型潛變量的機(jī)器學(xué)習(xí)方法中。在主題建模中,潛在狄利克雷分配(LDA)定義了一個用于描述語料庫文本的模型。因此,給定大小為V的完整語料庫詞匯表和給定數(shù)量為T的主題,模型假設(shè):

· 對于每個主題,在詞匯表上都存在一個“主題詞”的概率分布(使用Dirichlet先驗假設(shè))

· 對于每個文檔,在主題上都存在一個“文檔主題”的概率分布(使用另一個Dirichlet先驗假設(shè))

· 對文檔中的每個單詞進(jìn)行采樣。首先,從文檔的“文檔 - 主題”分布中對主題進(jìn)行采樣;其次,從附加到采樣話題的“主題 - 單詞”分布中采樣一個單詞。

該方法的名稱來源于模型中假設(shè)的Dirichlet先驗,其目的是推斷觀察到的語料庫中的潛在主題以及每個文檔的主題分解。即使不深入研究LDA方法的細(xì)節(jié),也可以粗略地用w來表示語料庫中單詞的向量,用z來表示與這些單詞相關(guān)的主題向量,用貝葉斯方法根據(jù)觀測到的w推斷出z:

由于維度過高,這里無法推斷出歸一化因子,同時,還存在組合問題(因為一些變量是離散的),需要使用MCMC方法或VI方法來獲得近似解。對主題建模及其特定的貝葉斯推理問題感興趣的讀者可以看看下面這篇關(guān)于LDA的參考文獻(xiàn)。

傳送門:http://www.jmlr.org/papers/vo...

LDA方法的說明。

馬爾可夫鏈蒙特卡洛(MCMC)方法

上文提到,貝葉斯推理問題中的主要困難來自于歸一化因子。本節(jié)將描述MCMC采樣方法,為歸一化因子以及與貝葉斯推理相關(guān)的其他計算困難提供解決方案。

采樣方法

采樣方法如下,首先假設(shè)有一種方法(MCMC)可以從由一個因子定義的概率分布中抽取樣本。然后,可以從這個分布中得到樣本(僅使用未標(biāo)準(zhǔn)化的部分定義),并使用這些樣本計算各種準(zhǔn)時統(tǒng)計量,如均值和方差,甚至通過核密度估計來求得近似分布,從而避免處理涉及后驗的棘手計算。

與下一節(jié)所述的VI方法相反,對所研究的概率分布(貝葉斯推理中的后驗分布)MCMC方法無需假設(shè)模型。因此,該方法具有低偏差但高方差,這意味著大多數(shù)情況下,獲得的結(jié)果比從VI方法中得到的結(jié)果花費更多時間精力,但也更準(zhǔn)確。

總結(jié)本小節(jié),即上述的采樣過程并不局限于后驗分布的貝葉斯推理,它還可以普遍用于所有由歸一化因子定義的概率分布。

采樣方法(MCMC)的說明。

MCMC方法的概念

在統(tǒng)計學(xué)中,馬爾可夫鏈蒙特卡羅(MCMC)算法旨在從給定的概率分布中生成樣本。該方法名稱中的“蒙特卡羅”部分是出于取樣目的,而“馬爾可夫鏈”部分來自獲取這些樣本的方式。

為了得到樣本,要建立一個馬爾可夫鏈,從其平穩(wěn)分布中獲得樣本。然后,可以從馬爾可夫鏈中模擬隨機(jī)的狀態(tài)序列,該序列足夠長,能夠(幾乎)達(dá)到穩(wěn)態(tài),再保留生成的一些狀態(tài)作為樣本。

在隨機(jī)變量生成技術(shù)中,MCMC是一種相當(dāng)高級的方法,可以從一個非常困難的概率分布中獲得樣本,這個概率分布可能僅由一個乘法常數(shù)定義。更出乎意料的是,可以用MCMC從一個未經(jīng)標(biāo)準(zhǔn)化的分布中獲得樣本,這來自于定義馬爾可夫鏈的特定方式,馬爾可夫鏈對這些歸一化因子并不敏感。

MCMC方法旨在從一個困難的概率分布中生成樣本,該概率分布可以僅由一個因子定義而成。

馬爾可夫鏈的定義

整個MCMC方法是基于馬爾可夫鏈的建立,并從其平穩(wěn)分布中取樣。為此,Metropolis-Hasting和吉布斯采樣算法都使用了馬氏鏈的一個特殊性質(zhì):可逆性。

狀態(tài)空間為E的馬爾可夫鏈,轉(zhuǎn)移概率由下式表示

如果存在概率分布γ,上式則是可逆的

對于這樣的馬氏鏈,可以很容易地證明有

然后,γ是一個平穩(wěn)分布(對不可約馬氏鏈來說,也是唯一一個平穩(wěn)分布)。

現(xiàn)在假設(shè)想要采樣的概率分布π僅由一個因子定義

(其中C是未知的乘法常數(shù))??梢宰⒁獾揭韵碌仁匠闪?/p>

接著,是轉(zhuǎn)移概率為k(.,.)的馬爾可夫鏈被定義為驗證過去的等式,如預(yù)期那樣將π定義為平穩(wěn)分布。因此,我們可以定義一個馬爾可夫鏈的平穩(wěn)概率分布為π,該分布不能精確計算。

Gibbs采樣轉(zhuǎn)換(∞)

假設(shè)待定義的Markov鏈?zhǔn)荄維的,則

吉布斯采樣(Gibbs Sampling)假設(shè)即使在無法得知聯(lián)合概率的情況下,也可以基于其他維度計算得出某一維度的條件分布。基于此假設(shè),Gibbs采樣轉(zhuǎn)換可定義為,下一階段狀態(tài),如在n+1次迭代的狀態(tài),可由如下步驟得出。

首先,從D維X_n中隨機(jī)選擇一個整數(shù)d。然后,根據(jù)相應(yīng)的條件概率,通過采樣賦予維度d一個新數(shù)值。這一過程中,其他維度保持如下狀態(tài)不變:

其中

是基于其他維度得出的第d個維度的條件分布。

通常,設(shè)

則轉(zhuǎn)換概率可以表示為

并且,在唯一有意義的情況下,局部平衡按預(yù)期得到了驗證

Metropolis-Hasting轉(zhuǎn)換(∞)

有時候,計算Gibbs采樣中的條件分布也是很復(fù)雜的。在這種情況下,可以采用Metropolis-Hasting算法。運用該算法,需要先定義一個側(cè)向的轉(zhuǎn)換概率h(.,.),該概率將被用于建議轉(zhuǎn)換。下一階段(n+1次迭代)Markov鏈的狀態(tài)可由如下步驟得出。首先,從h中生成“建議轉(zhuǎn)換”x,并計算一個關(guān)聯(lián)概率r用于接受x:

可以得到如下有效轉(zhuǎn)換

通常,轉(zhuǎn)換概率可以表示為

同時,局部平衡按預(yù)期得到了驗證

采樣過程

定義Markov鏈后,模擬一串隨機(jī)狀態(tài)序列(隨機(jī)初始化數(shù)值),并對其中一些狀態(tài)進(jìn)行設(shè)定,如設(shè)置為服從目標(biāo)分布的獨立樣本。

第一步,為了讓樣本(近似)服從目標(biāo)分布,僅考慮與初始設(shè)定序列狀態(tài)相差大的狀態(tài),使Markov鏈近似達(dá)到穩(wěn)定狀態(tài)(理論上來說,漸進(jìn)達(dá)到穩(wěn)定狀態(tài))。這樣一來,初始設(shè)定狀態(tài)就沒樣本那么有用了。這一達(dá)到平穩(wěn)的階段被稱為老化時間(burn-in time)。需要注意的是,實際操作中很難知道該階段會持續(xù)多長時間。

第二步,為了獲得(近似)獨立樣本,不能把所有的序列連續(xù)狀態(tài)都放在老化時間之后。實際上,Markov鏈的定義中就已經(jīng)表明了兩個連續(xù)狀態(tài)之間有很強(qiáng)的聯(lián)系。因此,需要把狀態(tài)相差很遠(yuǎn)的樣本默認(rèn)為近似獨立。在實際操作中,可以通過分析自相關(guān)函數(shù)來預(yù)測兩個近似獨立狀態(tài)間所需要的滯后(僅限于數(shù)值數(shù)據(jù))。

所以,為了得到服從目標(biāo)分布的獨立樣本,需要從位于老化時間B之后的、彼此間滯后為L的初始序列中分離出狀態(tài)。設(shè)Markov鏈連續(xù)狀態(tài)為

則樣本狀態(tài)為

MCMC采樣需要考慮老化時間和滯后。

變分推斷(VI)

另一個可用于解決復(fù)雜推斷計算問題的方法是變分推斷(Variational Inference,簡稱VI)。VI旨在找到參數(shù)化數(shù)族的最優(yōu)近似分布。為此,需要遵循一個優(yōu)化過程(優(yōu)化數(shù)族里的參數(shù)),該過程需要僅由一個因子定義的目標(biāo)分布。

逼近法

給定一個數(shù)族,VI旨在搜尋該數(shù)族中某些復(fù)雜目標(biāo)概率分布的最優(yōu)近似解。具體來說,VI定義一個參數(shù)化數(shù)族分布,并通過優(yōu)化參數(shù)得到具有確定誤差測量的最接近目標(biāo)的元素。

將歸一化因子C的概率分布π定義為:

應(yīng)用數(shù)學(xué)術(shù)語,設(shè)參數(shù)化數(shù)族分布為

對于兩個分布p和q的誤差測量E(p,q),搜尋如下最優(yōu)參數(shù)

如果想要在未明確標(biāo)準(zhǔn)化π的情況下解決該問題,那么不需要復(fù)雜的計算,f_

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/45254.html

相關(guān)文章

  • 貪心學(xué)院-圖神經(jīng)網(wǎng)絡(luò)高級訓(xùn)練營

    摘要:百度網(wǎng)盤提取碼最近一直關(guān)注貪心學(xué)院的機(jī)器學(xué)習(xí)訓(xùn)練營,發(fā)現(xiàn)這門課講的很有深度,不僅適合職場也適合科研人員,加入行業(yè)拿到高薪僅僅是職業(yè)生涯的開始。 ??百度網(wǎng)盤??提取碼:u6C4最近一直關(guān)注貪心學(xué)院的機(jī)器學(xué)習(xí)訓(xùn)練營,發(fā)現(xiàn)這門課講的很有深度,不僅適合職場也適合科研人員,加入AI行業(yè)拿到高薪僅僅是職業(yè)生涯的開始。現(xiàn)階段AI人才結(jié)...

    番茄西紅柿 評論0 收藏2637
  • 全新視角:用變分推斷統(tǒng)一理解生成模型

    摘要:相比于,它將也作為隱變量納入到變分推斷中。結(jié)論綜述本文的結(jié)果表明了變分推斷確實是一個推導(dǎo)和解釋生成模型的統(tǒng)一框架,包括和。 作者丨蘇劍林單位丨廣州火焰信息科技有限公司研究方向丨NLP,神經(jīng)網(wǎng)絡(luò)個人主頁丨kexue.fm前言我小學(xué)開始就喜歡純數(shù)學(xué),后來也喜歡上物理,還學(xué)習(xí)過一段時間的理論物理,直到本科畢業(yè)時,我才慢慢進(jìn)入機(jī)器學(xué)習(xí)領(lǐng)域。所以,哪怕在機(jī)器學(xué)習(xí)領(lǐng)域中,我的研究習(xí)慣還保留著數(shù)學(xué)和物理的...

    tinylcy 評論0 收藏0
  • DeepMind 推出貝葉 RNN,語言建模和圖說生成超越傳統(tǒng) RNN

    摘要:我們還經(jīng)驗性地演示了貝葉斯在語言建?;鶞?zhǔn)和生成圖說任務(wù)上優(yōu)于傳統(tǒng),以及通過使用不同的訓(xùn)練方案,這些方法如何改進(jìn)我們的模型。第節(jié)和第節(jié)分別回顧了通過反向傳播做貝葉斯,和通過時間做反向傳播。 摘要在這項工作里,我們探討了一種用于 RNN 的簡單變分貝葉斯方案(straightforward variational Bayes scheme)。首先,我們表明了一個通過時間截斷反向傳播的簡單變化,能...

    KunMinX 評論0 收藏0
  • 貝葉角度,看深度學(xué)習(xí)的屬性和改進(jìn)方法

    摘要:而從貝葉斯概率視角描述深度學(xué)習(xí)會產(chǎn)生很多優(yōu)勢,即具體從統(tǒng)計的解釋和屬性,從對優(yōu)化和超參數(shù)調(diào)整更有效的算法,以及預(yù)測性能的解釋這幾個方面進(jìn)一步闡述。貝葉斯層級模型和深度學(xué)習(xí)有很多相似的優(yōu)勢。 論文地址:https://arxiv.org/abs/1706.00473深度學(xué)習(xí)是一種為非線性高維數(shù)據(jù)進(jìn)行降維和預(yù)測的機(jī)器學(xué)習(xí)方法。而從貝葉斯概率視角描述深度學(xué)習(xí)會產(chǎn)生很多優(yōu)勢,即具體從統(tǒng)計的解釋和屬性...

    elliott_hu 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<