如何從信號分析角度理解卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜機(jī)制？

Aomine 發(fā)布于2019-04-25 18:13 / 2521人閱讀

摘要：隨著復(fù)雜和高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn)，卷積神經(jīng)網(wǎng)絡(luò)的性能已經(jīng)優(yōu)于傳統(tǒng)的數(shù)字圖像處理方法，如和。子網(wǎng)絡(luò)由多個卷積層組成，而子網(wǎng)絡(luò)由幾個完全連接層組成。結(jié)論總而言之，模型用信號分析的角度為我們剖析了卷積神經(jīng)網(wǎng)絡(luò)。

隨著復(fù)雜和高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)的出現(xiàn)，卷積神經(jīng)網(wǎng)絡(luò)（CNN）的性能已經(jīng)優(yōu)于傳統(tǒng)的數(shù)字圖像處理方法，如 SIFT 和 SURF。在計算機(jī)視覺領(lǐng)域，學(xué)者們開始將研究重點轉(zhuǎn)移到 CNN，并相信 CNN 是這一領(lǐng)域的未來趨勢。但是，人們對成效卓著的 CNN 背后的機(jī)理卻缺乏了解。研究 CNN 的運行機(jī)理是當(dāng)今一個熱門話題。基本上，有三種主流觀點：1>優(yōu)化、2>近似、3>信號。前兩種觀點主要集中在純數(shù)學(xué)分析，它們試圖分析神經(jīng)網(wǎng)絡(luò)的統(tǒng)計屬性和收斂性，而第三種觀點信號嘗試解決以下問題：1）為什么非線性激活函數(shù)（activation function）對所有中間層的過濾式輸出（filter output）是必不可少的？2）雙層級聯(lián)系統(tǒng)（two-layer cascade system）比單層系統(tǒng)的優(yōu)勢在哪里？

球面修正相關(guān)性（REctified COrrelations on a Sphere/RECOS）

眾所周知，前饋神經(jīng)網(wǎng)絡(luò)（FNN）可以被看作是一個萬能的近似器，在給定包含有限數(shù)量神經(jīng)元的單個隱藏層的情況下，它能夠近似任何連續(xù)的函數(shù)。FNN 的特殊之處在于神經(jīng)元的非線性激活函數(shù)。有的神經(jīng)網(wǎng)絡(luò)龐大且深度，但如果離開非線性激活函數(shù)，它們的復(fù)雜架構(gòu)的效果與一個簡單的單層線性模型沒什么不同，都是將輸入映射到另一個輸出空間。具體來說，非線性激活函數(shù)學(xué)習(xí)到的輸入的表征集合更適合解決實際問題。

CNN 只是 FNN 或 MLP（多層感知器/perceptron）的另一種類型。為了分析 CNN 的非線性，作者提出了一個數(shù)學(xué)模型來理解 CNN 的行為。在模型中，CNN 被視為由基本操作單元組成的一個網(wǎng)絡(luò)，它們計算「球面修正相關(guān)（RECOS）」。因此，它被稱為 RECOS 模型。在 CNN 訓(xùn)練期間，首先初始化核權(quán)重，然后通過梯度下降法（gradient descent）和反向傳播（back propagation）算法進(jìn)行調(diào)整。在 RECOS 模型中，權(quán)重被稱為錨向量（anchor vector），以表示它們在聚類輸入數(shù)據(jù)中的作用。也就是說，我們試圖計算輸入向量和錨向量之間的相關(guān)性，然后測量其相似度。

為什么用非線性激活函數(shù)？

與 MLP 僅用 1 步考慮所有像素的交互作用不同，CNN 將輸入圖像分解成較小的圖像塊（patch），在某些層中又被稱為節(jié)點的感受域（receptive field）。算法逐漸擴(kuò)大感受域的范圍以覆蓋更大的圖像。神經(jīng)元計算輸入向量與其錨向量之間的相關(guān)性，以測量它們的相似度。每個 RECOS 單元中有 K 個神經(jīng)元。我們將模型表示為 Y = AX，其中 X 是輸入向量，Y 是輸出向量，A 是我們的錨向量（核過濾器（kernel filter）的權(quán)重矩陣）。這個方程表示 CNN 將輸入映射到另一個空間。通過研究 RECOS 模型，我們可以立即得出結(jié)論：學(xué)習(xí)到的核權(quán)重傾向于將相似的對象映射到同一個區(qū)域。例如，如果 x_i 與 x_j 的歐式距離相近，則相應(yīng)的輸出 y_i 和 y_j 在新空間中也必須相近。對于用于捕獲貓的特征的過濾器，學(xué)習(xí)到的錨向量 A 將所有代表貓?zhí)卣鞯南蛄?X_cat 映射為 Y_cat，而其它代表狗特征的向量 X_dog 或代表車特征的向量 X_car 將永遠(yuǎn)不會出現(xiàn)在這個區(qū)域。這就是 CNN 能夠有效識別不同對象的原因。

但為什么我們必須使用非線性激活函數(shù)？考慮上面兩幅圖像：（左）原始的貓圖像，（右）左圖像的負(fù)片。從人的角度判斷，這兩個圖像可以是一樣的，但也可以是不同的。我們可以得出結(jié)論，兩幅圖中的貓是相同的貓，并且它們是負(fù)相關(guān)的。因為黑貓只是通過從白貓圖像的像素值減去 255 來獲得。那么 CNN 如何理解這兩只貓呢？

從上圖中，我們可以看到使用非線性激活函數(shù)的必要性。X 是輸入向量，a_1、a_2 和 a_3 是學(xué)習(xí)到的不同的錨向量。在 RECOS 模型中，線性運算 Y = AX 用于測量輸入向量和錨向量之間相似度。因此，對于錨向量 a_1 和 a_3，可以看到 x 與兩個錨向量之間的相似度在幅度上是相同的，但是符號相反。此時，對于 CNN 來說貓是不同的。但是例如在有兩個卷積層的 LeNet5 中，當(dāng)原始輸入 x 通過兩層之后，最終的輸出結(jié)果將會被混淆：以下兩種情況不能被沒有非線性激活函數(shù)的系統(tǒng)正確區(qū)分：1）第一層的正響應(yīng)遇到第二層的負(fù)過濾權(quán)重；和 2）第一層的負(fù)響應(yīng)遇到第二層的正過濾權(quán)重。然而，通過使用非線性激活函數(shù)，CNN 可以很容易地排除負(fù)值的影響，從而得到魯棒的系統(tǒng)。

此外，作者還進(jìn)行了一個有趣的實驗，結(jié)果如下：

我們用 MNIST 訓(xùn)練集訓(xùn)練了 LeNet-5 網(wǎng)絡(luò)，在 MNIST 測試集上得到了 98.94％的正確識別率。然后，我們將這個 LeNet-5 網(wǎng)絡(luò)應(yīng)用于如圖 5 所示的灰度反轉(zhuǎn)的測試圖像。準(zhǔn)確率下降為 37.36％。接下來，我們將 conv1 中的所有過濾權(quán)重改為負(fù)值，同時保持網(wǎng)絡(luò)的其余部分不變。經(jīng)過微修改的 LeNet-5 網(wǎng)絡(luò)對灰度反轉(zhuǎn)測試集的正確識別率為 98.94％，而原始測試集的準(zhǔn)確率下降為 37.36％。

可以看到，改變第一個卷積層中的所有過濾權(quán)重將得到對稱的結(jié)果。該結(jié)果表明，引入激活函數(shù)將消除負(fù)相關(guān)關(guān)系，若我們在學(xué)習(xí)灰度反轉(zhuǎn)圖像的特征時不僅保留學(xué)習(xí)原圖像的錨向量同時加入灰度翻轉(zhuǎn)圖像的錨向量，則對兩個測試集均能夠達(dá)到高識別效果。

級聯(lián)層的優(yōu)勢是什么？

通常來講，隨著 CNN 層數(shù)的深入，核函數(shù)會試圖基于所有之前核函數(shù)的輸出來構(gòu)建自己的抽象特征。所以相比淺層，深層可以捕捉全局語義和高級特征。在 RECOS 模型中，CNN 利用與測量相似度類似的一系列非線性變換來逐層聚類相似的輸入數(shù)據(jù)。輸出層預(yù)測所有可能決策（如，對象的類）的似然值。訓(xùn)練樣本含有圖像與其決策標(biāo)簽之間的關(guān)系，并能夠幫助 CNN 生成更適合的錨向量（從而形成更好的聚類），最終將聚類數(shù)據(jù)與決策標(biāo)簽聯(lián)系起來。

上圖顯示了深度網(wǎng)絡(luò)的有效性，實驗細(xì)節(jié)如下：

我們用一個例子來說明這一點。首先，我們通過在 MNIST 數(shù)據(jù)集的原始手寫數(shù)字上隨機(jī)添加 10 個不同的背景來修改 MNIST 的訓(xùn)練集和測試集。對上面的三行圖像，每行最左邊的列顯示 3 個數(shù)字圖像輸入，中間列是分別來自卷積層和 ReLU 層的 6 個譜圖像（spectral image）輸出，最右邊兩列是分別來自卷積層和 ReLU 層的 16 個譜圖像輸出。由于背景的多樣性，難以為第一層找到的良好的錨向量矩陣。然而，這些圖像的背景在空間域中是不一致的，而它們的前景數(shù)字是一致的。

對于不同的變形背景，CNN 成功地捕捉到了代表性模式。值得注意的是，第一層含有很多冗余和無關(guān)的信息，通過在級聯(lián)層運用特征提取，CNN 學(xué)習(xí)到了全局樣式而不是局部細(xì)節(jié)。也就是說，對于輸入向量 x，RECOS 變換產(chǎn)生一組 K 個非負(fù)相關(guān)值作為 K 維度的輸出向量。這種方式實現(xiàn)了逐層重復(fù)聚類。最后，訓(xùn)練圖像的標(biāo)簽幫助 CNN 在不同背景的圖像中找到相同的模式。

從上面的分析可以看出，卷積層模型對于自動選擇特征是很有用的。它能在沒有人工干預(yù)的情況下測量輸入數(shù)據(jù)的相似性并將其聚類到不同區(qū)域。

那么完全連接層的作用是什么？

通常 CNN 被分解為兩個子網(wǎng)絡(luò)：特征提?。‵E）子網(wǎng)絡(luò)和決策（DM）子網(wǎng)絡(luò)。FE 子網(wǎng)絡(luò)由多個卷積層組成，而 DM 子網(wǎng)絡(luò)由幾個完全連接層組成。簡而言之，F(xiàn)E 子網(wǎng)絡(luò)通過一系列 RECOS 變換以形成用于聚類的新表征。DM 子網(wǎng)絡(luò)將數(shù)據(jù)表征與決策標(biāo)簽聯(lián)系起來，它的作用與 MLP 的分類作用類似。

到這里我們可以得出結(jié)論，CNN 比計算機(jī)視覺中經(jīng)典的機(jī)器學(xué)習(xí)算法要好得多。因為 CNN 可以自動提取特征并且基于這些特征學(xué)習(xí)分類輸入數(shù)據(jù)，而隨機(jī)森林（RF）和支持向量機(jī)（SVM）則非常依賴于特征工程，而這種特征工程往往很難操作。

結(jié)論

總而言之，RECOS 模型用信號分析的角度為我們剖析了卷積神經(jīng)網(wǎng)絡(luò)。從這個角度來看，我們可以看到激活函數(shù)和深度架構(gòu)的有效性。然而，以下幾個方面仍需要重點研究：網(wǎng)絡(luò)架構(gòu)設(shè)計、弱監(jiān)督學(xué)習(xí)、對錯誤標(biāo)簽的魯棒性、數(shù)據(jù)集偏差和過擬合問題等。?

論文：Understanding Convolutional Neural Networks with A Mathematical Model

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器如何理解數(shù)據(jù)分析云計算三種服務(wù)從服務(wù)方式的角度可以把云計算分為( )類信號量機(jī)制編程c語言從騰訊云如何進(jìn)入自己的服務(wù)器

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4538.html

發(fā)表評論

登陸后可評論

0條評論

Aomine

男|高級講師

我要關(guān)注我要私信

TA的文章

作為一名Java程序員，因為偷偷接私活被...

閱讀 3904·2021-11-17 09:33
從“搬磚小哥”到軟件測試工程師：這一次的選擇，讓我實現(xiàn)了月薪飛躍

閱讀 1207·2021-10-09 09:44
給自己的頁面添加點樂趣

閱讀 409·2019-08-30 13:59
擁有漂亮UI的flutter學(xué)習(xí)項目，持續(xù)更新中喲

閱讀 3486·2019-08-30 11:26
浮動的label

閱讀 2189·2019-08-29 16:56
HTML、CSS筆記

閱讀 2858·2019-08-29 14:22
前端實例練習(xí) - 加載動效按鈕

閱讀 3156·2019-08-29 12:11
探索發(fā)現(xiàn)：CSS實現(xiàn)中文兩端對齊

閱讀 1280·2019-08-29 10:58

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

如何從信號分析角度理解卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜機(jī)制？

相關(guān)文章

**從圖像到知識：深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)圖像理解的原理解析**

科學(xué)領(lǐng)域中的深度學(xué)習(xí)一覽

卷積為什么如此強(qiáng)大？理解深度學(xué)習(xí)中的卷積

理解深度學(xué)習(xí)中的卷積

發(fā)表評論

0條評論

Aomine

男|高級講師

TA的文章

作為一名Java程序員，因為偷偷接私活被...

從“搬磚小哥”到軟件測試工程師：這一次的選擇，讓我實現(xiàn)了月薪飛躍

給自己的頁面添加點樂趣

擁有漂亮UI的flutter學(xué)習(xí)項目，持續(xù)更新中喲

浮動的label

HTML、CSS筆記

前端實例練習(xí) - 加載動效按鈕

探索發(fā)現(xiàn)：CSS實現(xiàn)中文兩端對齊

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

如何從信號分析角度理解卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜機(jī)制？

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

如何從信號分析角度理解卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜機(jī)制？