摘要:近日,針對(duì)泛化能力強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)無(wú)法解釋其具體決策的問(wèn)題,深度學(xué)習(xí)殿堂級(jí)人物等人發(fā)表論文提出軟決策樹(shù)。即使沒(méi)有使用無(wú)標(biāo)簽數(shù)據(jù),仍然有可能通過(guò)使用一種稱為蒸餾法,的技術(shù)和一種執(zhí)行軟決策的決策樹(shù),將神經(jīng)網(wǎng)絡(luò)的泛化能力遷移到?jīng)Q策樹(shù)上。
近日,針對(duì)泛化能力強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò)(DNN)無(wú)法解釋其具體決策的問(wèn)題,深度學(xué)習(xí)殿堂級(jí)人物 Geoffrey Hinton 等人發(fā)表 arXiv 論文提出「軟決策樹(shù)」(Soft Decision Tree)。相較于從訓(xùn)練數(shù)據(jù)中直接學(xué)習(xí)的決策樹(shù),軟決策樹(shù)的泛化能力更強(qiáng);并且通過(guò)層級(jí)決策模型把 DNN 所習(xí)得的知識(shí)表達(dá)出來(lái),具體決策解釋容易很多。這最終緩解了泛化能力與可解釋性之間的張力。
深度神經(jīng)網(wǎng)絡(luò)優(yōu)秀的泛化能力依賴于其隱藏層中對(duì)分布式表征的使用 [LeCun et al., 2015],但是這些表征難以理解。對(duì)于第一個(gè)隱藏層我們明白是什么激活了單元,對(duì)于最后一個(gè)隱藏層我們也明白激活一個(gè)單元產(chǎn)生的影響;但是對(duì)于其他隱藏層來(lái)說(shuō),理解有意義變量(比如輸入和輸出變量)的特征激活的原因和影響就困難重重。由于其邊際效應(yīng)取決于同一層其他單元的影響,使得獨(dú)立地理解任何特定的特征激活變得舉步維艱。
相比之下,很容易解釋決策樹(shù)是如何做出特定分類的,因?yàn)樗蕾囉谝粋€(gè)相對(duì)短的決策序列,直接基于輸入數(shù)據(jù)做出每個(gè)決策。但是決策樹(shù)并不像深度神經(jīng)網(wǎng)絡(luò)一樣可以很好地泛化。與神經(jīng)網(wǎng)絡(luò)中的隱藏單元不同,決策樹(shù)較低級(jí)別的典型節(jié)點(diǎn)僅被一小部分訓(xùn)練數(shù)據(jù)所使用,所以決策樹(shù)的較低部分傾向于過(guò)擬合,除非相對(duì)于樹(shù)的深度,訓(xùn)練集是指數(shù)量級(jí)的規(guī)模。
在這篇論文中,我們提出了一種新的方法,以緩解泛化能力和可解釋性之間的張力。與其嘗試?yán)斫馍疃壬窠?jīng)網(wǎng)絡(luò)如何決策,我們使用深度神經(jīng)網(wǎng)絡(luò)去訓(xùn)練一個(gè)決策樹(shù)以模仿神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)的「輸入-輸出「函數(shù),但是是以一種完全不同的方式工作。如果存在大量的無(wú)標(biāo)簽數(shù)據(jù),該神經(jīng)網(wǎng)絡(luò)可以創(chuàng)建一個(gè)大得多的標(biāo)記數(shù)據(jù)集去訓(xùn)練一個(gè)決策樹(shù),從而克服決策樹(shù)的統(tǒng)計(jì)低效問(wèn)題。即使無(wú)標(biāo)簽數(shù)據(jù)是不可用的,或許可以使用生成式建模中的研究進(jìn)展(Goodfellow et al., 2014, Kingma and Welling, 2013)以從一個(gè)類似于數(shù)據(jù)分布的分布中生成合成無(wú)標(biāo)簽數(shù)據(jù)。即使沒(méi)有使用無(wú)標(biāo)簽數(shù)據(jù),仍然有可能通過(guò)使用一種稱為蒸餾法(distillation,Hinton et al., 2015, Buciluˇa et al., 2006)的技術(shù)和一種執(zhí)行軟決策的決策樹(shù),將神經(jīng)網(wǎng)絡(luò)的泛化能力遷移到?jīng)Q策樹(shù)上。
在測(cè)試過(guò)程中,我們使用決策樹(shù)作為我們的模型。該模型的性能可能會(huì)略微低于神經(jīng)網(wǎng)絡(luò),但速度快得多,并且該模型的決策是可解釋的。
為了簡(jiǎn)單起見(jiàn),我們從一類特殊的決策樹(shù)開(kāi)始討論,使深度神經(jīng)網(wǎng)絡(luò)的知識(shí)能更容易地被提取/蒸餾然后導(dǎo)入決策樹(shù)中。
2、專家的層次化混合
我們使用小批量梯度下降法訓(xùn)練軟二元決策樹(shù),其中每一個(gè)內(nèi)部節(jié)點(diǎn)(inner node)i 有一個(gè)學(xué)習(xí)到的過(guò)濾器 w_i 和一個(gè)偏置 b_i,每一個(gè)葉節(jié)點(diǎn)(leaf node)l 有一個(gè)學(xué)習(xí)到的分布 Q_l。在每一個(gè)內(nèi)部節(jié)點(diǎn)處,選擇最右邊的分支的概率為:
其中 x 是模型的輸入,σ是 sigmoid logistic 函數(shù)。
這個(gè)模型是專家的層次化混合(hierarchical mixture of experts,Jordan and Jacobs, 1994),但每個(gè)專家實(shí)際上都是一個(gè)「偏執(zhí)者(bigot)」,即在訓(xùn)練之后,無(wú)論輸入是什么都會(huì)生成相同的分布。該模型學(xué)習(xí)到了一個(gè)過(guò)濾器的分層體系,用于為每個(gè)樣本分配一個(gè)特定的專家以及相關(guān)的特定路徑概率,并且每個(gè)偏執(zhí)者都學(xué)習(xí)到了一個(gè)簡(jiǎn)單的、靜態(tài)的關(guān)于所有可能輸出類 k 的分布。
其中 Q^l. 表示在第 l 葉的概率分布,Φ^l. 是第 l 葉的學(xué)習(xí)參數(shù)。
圖 1:這個(gè)示意圖展示了一個(gè)有單個(gè)內(nèi)部節(jié)點(diǎn)和兩個(gè)葉節(jié)點(diǎn)的軟二元決策樹(shù)。
圖 2:一個(gè)在 MNIST 上訓(xùn)練的 4 層軟決策樹(shù)的可視化。
內(nèi)部節(jié)點(diǎn)中的圖像是學(xué)習(xí)到的過(guò)濾器,葉節(jié)點(diǎn)中的圖像是學(xué)習(xí)到的類概率分布的可視化。圖中標(biāo)注了每一葉的最終的較大可能分類,以及每一個(gè)邊的可能分類。以最右邊的內(nèi)部節(jié)點(diǎn)為例,可以看到在決策樹(shù)的當(dāng)前層次下可能的分類只有 3 和 8,因此該學(xué)習(xí)到的卷積核只需要簡(jiǎn)單地學(xué)習(xí)區(qū)分這兩個(gè)數(shù)字就可以了。
圖 3:在 Connect4 數(shù)據(jù)集上訓(xùn)練的軟決策樹(shù)前 2 層的可視化示例。
通過(guò)檢查已學(xué)習(xí)的過(guò)濾器,我們可以看到游戲可以分為兩種截然不同的子類型:一種是玩家將棋子放在棋盤的邊緣,另一種是玩家將棋子放在棋盤中央。
論文:Distilling a Neural Network Into a Soft Decision Tree
論文地址:https://arxiv.org/abs/1711.09784
摘要:深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在分類任務(wù)上證明了其有效性;當(dāng)輸入數(shù)據(jù)是高維度,輸入與輸出之間的關(guān)系很復(fù)雜,已標(biāo)注的訓(xùn)練實(shí)例數(shù)量較大時(shí),深度神經(jīng)網(wǎng)絡(luò)的表現(xiàn)更為突出。由于它們對(duì)分布式層級(jí)表征的依賴,很難解釋為什么一個(gè)已學(xué)習(xí)的網(wǎng)絡(luò)能夠在特定的測(cè)試中做出特定的分類決策。如果我們能夠獲取神經(jīng)網(wǎng)絡(luò)習(xí)得的知識(shí),并借助依賴于層級(jí)決策的模型表達(dá)出來(lái),那么解釋一個(gè)特定的決策將會(huì)容易很多。我們描述了一種使用已訓(xùn)練的神經(jīng)網(wǎng)絡(luò)創(chuàng)建軟決策樹(shù)的方法,它比直接從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的決策樹(shù)有著更優(yōu)的泛化能力。
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4688.html
閱讀 1878·2019-08-29 16:44
閱讀 2181·2019-08-29 16:30
閱讀 791·2019-08-29 15:12
閱讀 3534·2019-08-26 10:48
閱讀 2667·2019-08-23 18:33
閱讀 3788·2019-08-23 17:01
閱讀 1948·2019-08-23 15:54
閱讀 1311·2019-08-23 15:05