摘要:近日,加州大學(xué)洛杉磯分校的朱松純教授等人發(fā)布了一篇使用決策樹對(duì)的表征和預(yù)測(cè)進(jìn)行解釋的論文。在此論文中,朱松純等研究者提出了一種新任務(wù),也就是使用決策樹在語義層次上來量化解釋預(yù)測(cè)的邏輯。
近日,加州大學(xué)洛杉磯分校的朱松純教授等人發(fā)布了一篇使用決策樹對(duì) CNN 的表征和預(yù)測(cè)進(jìn)行解釋的論文。該論文借助決策樹在語義層面上解釋 CNN 做出的每一個(gè)特定預(yù)測(cè),即哪個(gè)卷積核(或物體部位)被用于預(yù)測(cè)最終的類別,以及其在預(yù)測(cè)中貢獻(xiàn)了多少。此前,斯坦福大學(xué)曾發(fā)表了一篇 AAAI 2018 的論文解釋如何用決策樹解釋深度網(wǎng)絡(luò),由此可見可解釋性的決策樹在理解深度網(wǎng)絡(luò)的進(jìn)程中將發(fā)揮重要的作用。
卷積神經(jīng)網(wǎng)絡(luò)在許多視覺任務(wù)上取得了驚人的表現(xiàn),例如物體分類和檢測(cè)。然而,除了辨別能力,模型可解釋性仍舊是神經(jīng)網(wǎng)絡(luò)的一大挑戰(zhàn)。許多研究提出對(duì) CNN 中隱藏的特征表征進(jìn)行可視化、分析或者語義化,從而獲得對(duì)網(wǎng)絡(luò)表征的理解。
在此論文中,朱松純等研究者提出了一種新任務(wù),也就是使用決策樹在語義層次上來量化解釋 CNN 預(yù)測(cè)的邏輯。注意,這里的決策樹泛指對(duì)不同圖像的 CNN 預(yù)測(cè)生成先驗(yàn)解釋的「一般性」樹模型。
CNN 記憶多少類模式?
對(duì)每個(gè)輸入圖像,哪種物體-部位模式被用于預(yù)測(cè)?
如何量化測(cè)量每個(gè)物體-部位模式對(duì)預(yù)測(cè)的貢獻(xiàn)度?
解決上面三個(gè)問題需要:1)確定卷積層特征圖中每個(gè)神經(jīng)激活值的語義含義;2)量化測(cè)量不同神經(jīng)激活值的貢獻(xiàn),這對(duì)當(dāng)前最優(yōu)算法是重大挑戰(zhàn)。
在此論文中,研究者通過略微修正 CNN 而解開表征,并學(xué)習(xí)一種決策樹來解釋 CNN 的預(yù)測(cè)。給定特定領(lǐng)域的物體圖像以及隨機(jī)圖像作為正例和反例樣本,同時(shí)作為學(xué)習(xí) CNN 和決策樹的輸入。在此過程中,我們并未標(biāo)記任何部分或者結(jié)構(gòu)作為附加的監(jiān)督。首先,我們向 CNN 添加了論文《Interpretable convolutional neural networks》中提出的卷積核損失函數(shù)。其次,我們創(chuàng)造了一種決策樹來量化解釋對(duì)輸入圖像的決策模式,也就是哪個(gè)物體部位(卷積核)被用在預(yù)測(cè)中,貢獻(xiàn)度有多大。
如下圖 1 所示,決策樹中的每個(gè)節(jié)點(diǎn)表示特定的決策模式,且該決策樹以由粗到細(xì)的方式組織所有的決策模式。接近頂部根節(jié)點(diǎn)表征許多樣本共享的通用決策模式。接近葉節(jié)點(diǎn)對(duì)應(yīng)少數(shù)樣本的細(xì)粒模式。特別是每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)于 CNN 的輸出關(guān)于圖像中不同物體部位的梯度。
圖 1. 在語義層次上解釋 CNN 預(yù)測(cè)的決策樹。我們學(xué)習(xí)到一種分類物體的 CNN,帶有頂部卷積層的解開表征,其中每個(gè)過濾層表征一個(gè)特定的物體部位。以一種由粗到精的方式,決策樹解碼 CNN 全連接層中隱藏的各種決策模式。給定一張輸入圖像,我們推斷出一種解析樹(紅線)來量化分析 CNN 預(yù)測(cè)的基本原理,例如,哪些物體部位(或者過濾層)被用于預(yù)測(cè),且其對(duì)預(yù)測(cè)的貢獻(xiàn)度是多少。我們對(duì)總結(jié)低層節(jié)點(diǎn)并提供 CNN 預(yù)測(cè)緊密邏輯的高層決策模式更感興趣。
因此如上所述,在這篇論文中,研究者們關(guān)注了一項(xiàng)新任務(wù),即解開 CNN 的表征內(nèi)容,并學(xué)習(xí)一個(gè)決策樹以量化地解釋每一個(gè) CNN 預(yù)測(cè)的邏輯。他們提出了一種簡(jiǎn)單但高效的方法以在不使用標(biāo)注的信息下學(xué)習(xí)一個(gè)決策樹,因此可以在不使用物體部位作為額外的監(jiān)督而實(shí)現(xiàn)學(xué)習(xí) CNN 的過程。從理論上來說,研究者的方法是一種修正 CNN 的廣泛技術(shù),它能學(xué)到緊密耦合的 CNN 和決策樹。實(shí)踐上也證明了這種基于 VGG 網(wǎng)絡(luò)方法的高效性。
論文:Interpreting CNNs via Decision Trees
論文地址:https://arxiv.org/abs/1802.00121
本文提出的方法可通過學(xué)習(xí)決策樹從而量化地解釋預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNNs)每一預(yù)測(cè)的內(nèi)在邏輯。我們的方法從兩個(gè)方面提升了神經(jīng)網(wǎng)絡(luò)的可解釋性。1) 在 CNN 中,高層卷積層之中的每一個(gè)過濾層必須表征一個(gè)特定的物體部位,而不是描述無明確含義的混合模式。2) 人們可以借助決策樹在語義層面上解釋 CNN 做出的每一個(gè)特定預(yù)測(cè),即哪個(gè)過濾層(或物體部位)被用于預(yù)測(cè),以及其在預(yù)測(cè)中貢獻(xiàn)了多少。為了對(duì) CNN 做出量化解釋,我們的方法學(xué)習(xí) CNN 高層卷積層中物體部位的明確表征,并挖掘存儲(chǔ)在全連接層之中的潛在決策模式。決策樹按照由粗到細(xì)的方式組織這些潛在的決策模式。最后,我們的實(shí)驗(yàn)表明了這一方法的有效性。
3. 算法
3.1. 準(zhǔn)備工作:學(xué)習(xí)帶有解開(disentangled)表征的 CNN
通過在頂部卷積層為每一個(gè)過濾層添加損失,[30] 獲得了已學(xué)習(xí)的 CNN 解開表征,從而把過濾層的表征推向了一個(gè)特定的物體部位。注意人們無需為監(jiān)督標(biāo)注物體部位。CNN 在端到端學(xué)習(xí)期間自動(dòng)為每一個(gè)過濾層分配一個(gè)特定部位。
如圖 2 所示,人們?yōu)檎龢颖驹O(shè)計(jì) L^2 正模板 T^+ = {T_1,1, T_1,2, . . . , T_L,L} 以表征當(dāng)濾波器 f 的物體部位出現(xiàn)在 x^(d) 上的 L^2 個(gè)不同位置候選處時(shí)的理想激活形狀。負(fù)模板 T^?同樣用于描述負(fù)樣本上的特征圖。過濾層 f 的損失是作為所有特征圖和所有模板之間的負(fù)互信息給出的。
其中 X 表征所有訓(xùn)練樣本上過濾層 f 的特征圖的集合,T 表征所有的 L^2 + 1 模板。先驗(yàn)概率 p(T) 被定義為一個(gè)常量。
圖 2:過濾層 f 的特征圖的正模板。每個(gè)模板表征當(dāng)過濾層 f 的物體部位出現(xiàn)在特定的圖位置時(shí)的理想激活形狀。
3.2. 學(xué)習(xí)一個(gè)決策樹
過濾層中的部位概念:等式 (1) 中的損失確保每個(gè)過濾層表征一個(gè)特定的物體部位。讓我們聚焦在有特定過濾層 f 所產(chǎn)生的特征圖 xi , x ^(d)_ i ∈ R^L×L 的第 d 個(gè)通道,該通道表征一個(gè)解開的物體部位。我們可以把等式 (1) 中的過濾層損失重寫為
如圖 3 所示,這一損失確保第 d 個(gè)過濾層 f 表征目標(biāo)物體的一個(gè)部位。
圖 3:普通 CNN 特征圖與本研究中使用的解開特征圖之間的對(duì)比。我們可視化對(duì)應(yīng)于每一特征圖的圖像區(qū)域。
CNN 預(yù)測(cè)的內(nèi)在邏輯:如 [21] 所述,全連接層中為 I_i 編碼的決策模式可以大致為分段線性表征所描述:
其中?表示卷積。關(guān)于特征圖的梯度 partial y_i 除以 partial x_i 可通過梯度反向傳播計(jì)算。
樹:如圖 4 所示,我們提取編碼在 CNN 全連接層之中的決策模式,并構(gòu)建一個(gè)決策樹以組織決策模式的層級(jí)。從頂部節(jié)點(diǎn)到終端節(jié)點(diǎn),決策樹通過由粗到細(xì)的方式編碼決策模式。
圖 4:決策樹的學(xué)習(xí)過程。P_3 中的紅線表示解析樹以解釋給定圖像 I 的原理。
學(xué)習(xí):決策樹學(xué)習(xí)的基本思想是從不同樣本的特定決策模式中總結(jié)常見的決策模式,從而表征 CNN 預(yù)測(cè)的基本原理。
開始時(shí),通過設(shè)定和α = 1,我們把每一個(gè)正樣本 I_i 的梯度 g_i 初始化為一個(gè)終端節(jié)點(diǎn)。因此如圖 4 所示,我們構(gòu)建了一個(gè)初始樹 Q,其中頂部節(jié)點(diǎn)把所有正樣本的梯度作為后代。接著,在每一步中,我們?cè)诘诙€(gè)層中選擇并合并兩個(gè)節(jié)點(diǎn) v, v0 ∈ V(即,頂部節(jié)點(diǎn)的后代)以獲得一個(gè)新節(jié)點(diǎn) u,其中 V 表征第二層中的節(jié)點(diǎn)集合。v 和 v^"成為了 u 的后代,并且 u 替代 v 和 v^"成為了頂部節(jié)點(diǎn)的新后代。通過這種方式,在 T 合并操作之后我們逐漸把初始樹 P_0 = Q 修改為最后的決策樹:
整體如下:
3.3 解釋 CNN
給定一個(gè)測(cè)試圖像 I_i,我們使用 CNN 以預(yù)測(cè) y_i。我們使用決策樹對(duì)預(yù)測(cè)的基本原理進(jìn)行蓮花的計(jì)算。在推斷過程中,我們能自上而下構(gòu)建一棵解析樹,圖 4 中的紅線展示了這樣的解析樹。如果讀者希望了解更多解釋 CNN 預(yù)測(cè)類別的過程,請(qǐng)查看原論文的該章節(jié)。
4. 實(shí)驗(yàn)
表 1:在決策樹第 2、5、10、50 和 100 層的平均節(jié)點(diǎn)數(shù)。
表 2:在決策樹第 2、5、10、50、100 和底層上的平均分類準(zhǔn)確度。
表 3:在決策樹第 2、5、10、50、100 和底層節(jié)點(diǎn)上的平均預(yù)測(cè)誤差。
表 4:在決策樹第 2、5、10、50、100 和底層節(jié)點(diǎn)上對(duì)卷積核擬合度的平均貢獻(xiàn)。
上表 1 展示了決策樹的結(jié)構(gòu),其余展示了各層級(jí)的特性。下圖 5 可視化了決策樹中的決策模式,而圖 6 展示了物體部位的分布對(duì) CNN 預(yù)測(cè)的貢獻(xiàn),該貢獻(xiàn)通過使用決策樹第二層節(jié)點(diǎn)進(jìn)行估計(jì)。
一般來說,當(dāng)我們使用更加細(xì)粒度的決策模式來解釋預(yù)測(cè)邏輯時(shí),該解釋將更好地?cái)M合 CNN 中的實(shí)際邏輯,并且使用決策模式預(yù)測(cè) y_i 的誤差也會(huì)降低。然而,更加細(xì)粒度的決策模式并不會(huì)展現(xiàn)更高的分類準(zhǔn)確率,因?yàn)槲覀兎椒ǖ哪繕?biāo)是總結(jié)預(yù)訓(xùn)練 CNN 模型的決策模式,而不是提升分類準(zhǔn)確度。
圖 5:可視化決策樹第二層節(jié)點(diǎn)所對(duì)應(yīng)的決策模式,我們展示了每一個(gè)決策模式中的典型樣本。
圖 6:對(duì) CNN 預(yù)測(cè)的物體-部位貢獻(xiàn)。餅圖展示了不同部位的貢獻(xiàn)比例,它們都通過第二層節(jié)點(diǎn)進(jìn)行估計(jì)。熱力圖表示頂部卷積層的神經(jīng)元激活值分布,該熱力圖并不代表「貢獻(xiàn)」的分布,因?yàn)樯窠?jīng)元激活值并沒有被 g_i 加權(quán)。右圖為不同卷積核的圖像感受野。基于這些感受卷積核,我們可以通過不同的物體部位分配卷積核,因而能計(jì)算物體部位的貢獻(xiàn)。
本論文再最后的結(jié)語中表明,決策樹理論上只為 CNN 的預(yù)測(cè)提供近似的解釋,它不會(huì)對(duì) CNN 的表征細(xì)節(jié)進(jìn)行準(zhǔn)確的重構(gòu)。首先,我們并沒有準(zhǔn)確的物體-部位標(biāo)注以監(jiān)督 CNN 的學(xué)習(xí),[30] 只能粗略地令每個(gè)卷積核表征一個(gè)物體部位。而卷積核在一些困難的樣本中也可能生成不正確的激活值。其次,每一個(gè)節(jié)點(diǎn)的決策模式忽略非顯著性的物體-部位模式(卷積核)以確保決策模式的稀疏表征。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4733.html
摘要:隨著復(fù)雜和高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)的性能已經(jīng)優(yōu)于傳統(tǒng)的數(shù)字圖像處理方法,如和。子網(wǎng)絡(luò)由多個(gè)卷積層組成,而子網(wǎng)絡(luò)由幾個(gè)完全連接層組成。結(jié)論總而言之,模型用信號(hào)分析的角度為我們剖析了卷積神經(jīng)網(wǎng)絡(luò)。 隨著復(fù)雜和高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)(CNN)的性能已經(jīng)優(yōu)于傳統(tǒng)的數(shù)字圖像處理方法,如 SIFT 和 SURF。在計(jì)算機(jī)視覺領(lǐng)域,學(xué)者們開始將研究重點(diǎn)轉(zhuǎn)移到 CNN,并相信 ...
摘要:是第一個(gè)提出體積小,計(jì)算量少,適用于移動(dòng)設(shè)備的卷積神經(jīng)網(wǎng)絡(luò)。圖卷積運(yùn)算匯總參考圖與神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索卷積神經(jīng)網(wǎng)絡(luò)已被廣泛用于圖像分類人臉識(shí)別目標(biāo)檢測(cè)和其他領(lǐng)域。 1、基本卷積運(yùn)算手工設(shè)計(jì)輕量化模型主要思想在于設(shè)計(jì)更高效的網(wǎng)絡(luò)計(jì)算方式(主要針對(duì)卷積方式),從而使網(wǎng)絡(luò)參數(shù)減少,并且不損失網(wǎng)絡(luò)性能。本節(jié)概述了CNN模型(如MobileNet及其變體)中使用的基本卷積運(yùn)算單元,并基于空間維度和通道維度...
摘要:本論文將嘗試概述卷積網(wǎng)絡(luò)的架構(gòu),并解釋包含激活函數(shù)損失函數(shù)前向傳播和反向傳播的數(shù)學(xué)推導(dǎo)。本文試圖只考慮帶有梯度下降優(yōu)化的典型卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的制定。 近日南洋理工大學(xué)研究者發(fā)布了一篇描述卷積網(wǎng)絡(luò)數(shù)學(xué)原理的論文,該論文從數(shù)學(xué)的角度闡述整個(gè)卷積網(wǎng)絡(luò)的運(yùn)算與傳播過程。該論文對(duì)理解卷積網(wǎng)絡(luò)的數(shù)學(xué)本質(zhì)非常有幫助,有助于讀者「徒手」(不使用卷積API)實(shí)現(xiàn)卷積網(wǎng)絡(luò)。論文地址:https://arxiv....
早期成果卷積神經(jīng)網(wǎng)絡(luò)是各種深度神經(jīng)網(wǎng)絡(luò)中應(yīng)用最廣泛的一種,在機(jī)器視覺的很多問題上都取得了當(dāng)前較好的效果,另外它在自然語言處理,計(jì)算機(jī)圖形學(xué)等領(lǐng)域也有成功的應(yīng)用。第一個(gè)真正意義上的卷積神經(jīng)網(wǎng)絡(luò)由LeCun在1989年提出[1],后來進(jìn)行了改進(jìn),它被用于手寫字符的識(shí)別,是當(dāng)前各種深度卷積神經(jīng)網(wǎng)絡(luò)的鼻祖。接下來我們介紹LeCun在早期提出的3種卷積網(wǎng)絡(luò)結(jié)構(gòu)。?文獻(xiàn)[1]的網(wǎng)絡(luò)由卷積層和全連接層構(gòu)成,網(wǎng)絡(luò)...
閱讀 1996·2021-09-07 10:24
閱讀 2095·2019-08-30 15:55
閱讀 2049·2019-08-30 15:43
閱讀 674·2019-08-29 15:25
閱讀 1063·2019-08-29 12:19
閱讀 1947·2019-08-23 18:32
閱讀 1523·2019-08-23 17:59
閱讀 954·2019-08-23 12:22