摘要:其實我們在做線性回歸也好,分類邏輯斯蒂回歸也好,本質(zhì)上來講,就是把數(shù)據(jù)進行映射,要么映射到一個多個離散的標(biāo)簽上,或者是連續(xù)的空間里面,一般簡單的數(shù)據(jù)而言,我們很好擬合,只要線性變化一下,然后學(xué)習(xí)出較好的就可以了,但是對于一些比較復(fù)雜的數(shù)據(jù)怎
其實我們在做線性回歸也好,分類(邏輯斯蒂回歸)也好,本質(zhì)上來講,就是把數(shù)據(jù)進行映射,要么映射到一個多個離散的標(biāo)簽上,或者是連續(xù)的空間里面,一般簡單的數(shù)據(jù)而言,我們很好擬合,只要線性變化一下,然后學(xué)習(xí)出較好的W就可以了,但是對于一些比較復(fù)雜的數(shù)據(jù)怎么辦呢?比如說,對于一個二分類問題,特別是高緯度復(fù)雜化之后,數(shù)據(jù)不一定是線性可分的,這個時候,我們的basis function隆重登場,我們可以把數(shù)據(jù)進行一定的映射,轉(zhuǎn)變,非線性的線性的,轉(zhuǎn)變之后,就可以進行分類,最明顯的例子在andrew NG在講SVM里面的例子就很好的說明了,但是這個時候問題來了,對于一個很復(fù)雜,高維度的數(shù)據(jù),我們?nèi)绾尾拍苷业捷^好的basis function呢?
這個時候,神經(jīng)網(wǎng)絡(luò)隆重登場,我們把我們的basis function打開來,我們把誤差轉(zhuǎn)遞到basis function的里面,通過這樣的方式,來得到較好的basis function,同理,我們可以無限打開basis function,一直打開,對應(yīng)的也就是一層神經(jīng)網(wǎng)絡(luò)(具體出自于prml關(guān)于神經(jīng)網(wǎng)絡(luò)的章節(jié)最開始簡介的部分),但是問題來了,對于圖片怎么辦?我們知道,對于圖片而言,圖片是一個二維度的數(shù)據(jù),我們怎樣才能通過學(xué)習(xí)圖片正確的模式來對于一張圖片有正確的對于圖片分類呢?這個時候,有人就提出了一個觀點,我們可以這樣,對于所有的像素,全部都連接上一個權(quán)值,我們也分很多層,然后最后進行分類,這樣也可以,但是對于一張圖片來說,像素點太多,參數(shù)太多了。然后就有人提出來,我們只看一部分怎么樣,就是對于一張圖片來說,我們只看一個小窗口就可以了,對于其他的地方,我們也提供類似的小窗口,我們知道,當(dāng)我們對圖片進行卷積的時候,我們可以對圖片進行很多操作,比如說圖片整體模糊,或者是邊緣的提取,卷積操作對于圖片來說可以很好的提取到特征,而且通過BP誤差的傳播,我們可以根據(jù)不同任務(wù),得到對于這個任務(wù)較好的一個參數(shù),學(xué)習(xí)出相對于這個任務(wù)的較好的卷積核,之所以權(quán)值共享的邏輯是:如果說一個卷積核在圖片的一小塊兒區(qū)域可以得到很好的特征,那么在其他的地方,也可以得到很好的特征。
這就有了alex net的提出,通過對圖片進行五層(不知道有沒有記憶錯誤)的卷積,然后后面三層的全連接,我們可以得到一個很好的結(jié)果,特別的相對于更大的數(shù)據(jù)集而言,較好參數(shù)越多越好,也就是網(wǎng)絡(luò)較好更加深,更加的寬。
但是神經(jīng)網(wǎng)絡(luò)到底是什么?對于一批數(shù)據(jù)我們有很多的問題,為什么設(shè)置五層較好,batchsize多少比較好,每一層多少個卷積核(這個到現(xiàn)在我依舊沒有一個更好的解釋,每一個應(yīng)該多少卷積核),寬度多少?要不要LRN?每一層都代表了什么?
這些的解釋,就要好好看看今年CVPR的文章Visualizing and Understanding Convolutional Networks ?這篇文章寫的很棒,而且2015 CVPR出了很多對于卷積神經(jīng)網(wǎng)絡(luò)理解的文章,這篇文章提出了一個反卷積的方法(De-convolution)的方法,這樣我們就可以好好看看每一層卷積神經(jīng)網(wǎng)絡(luò)到底做了什么事情:
首先第一層的返卷積(上面是反卷積的圖片,下面對于第一層來說,激活值較大的圖片):
我們看到,第一個卷積層只是表達了簡單的圖片的邊緣而已,我們來看第二層:
第二層稍稍復(fù)雜了一點點,可以包含的不僅僅是一個邊緣,可以是幾個邊緣的組合
第三層:
第四層:
第五層:
我們看到,每一層都是對于一張圖片從最基礎(chǔ)的邊緣,不斷到最復(fù)雜的圖片自己本身。
同時在進行反卷積的時候M.D. Zeiler and R. Fergus也發(fā)現(xiàn),對于第一層的alexnet,會得到頻度很高的像素(也就是顏色很深),所以他們也提出了應(yīng)該要減小窗口,這樣可以得到頻度比較適中的像素:
當(dāng)圖片卷積完之后,會把一個圖片對于這一類本身最獨特的部分凸顯出來,然后來進行判斷,這一類到底是什么?有下面的實驗截圖:
最左邊的圖像是原圖像,作者蓋住不同的區(qū)域,來分析對于一張圖片,經(jīng)過五次卷積之后,到底是如何判斷的,我們看到卷積到最后(左三),比較凸顯出來的是狗的頭部,左二和右二的意思是,當(dāng)我們遮住不同的區(qū)域,判斷是狗的幾率,紅色區(qū)域代表概率很高,藍色區(qū)域代表概率很低,我們發(fā)現(xiàn),當(dāng)我們遮擋住狗的頭的地方的時候,我們得到這個物體時狗的概率較低,這個側(cè)面證明了,所謂卷積神經(jīng)網(wǎng)絡(luò),就是會自動的對于一張圖片學(xué)習(xí)出較好的卷積核以及這些卷積核的組合方式,也就是對于一張圖片的任務(wù)來說,求出較好的圖片對于本任務(wù)的特征的表達,然后來進行判斷
還有一篇文章也助于理解,
Understanding Deep Image Representations by Inverting Them
這篇對于卷積每一層都不斷的還原到最原始的圖片:
越是到后面,圖片越模糊,但是它自己獨特的部分,卻凸顯了出來。(也就是這個猩猩還是狒狒的頭的部分)
還望指正,多謝!
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4421.html
摘要:其實我們在做線性回歸也好,分類邏輯斯蒂回歸也好,本質(zhì)上來講,就是把數(shù)據(jù)進行映射,要么映射到一個多個離散的標(biāo)簽上,或者是連續(xù)的空間里面,一般簡單的數(shù)據(jù)而言,我們很好擬合,只要線性變化一下,然后學(xué)習(xí)出較好的就可以了,但是對于一些比較復(fù)雜的數(shù)據(jù)怎 其實我們在做線性回歸也好,分類(邏輯斯蒂回歸)也好,本質(zhì)上來講,就是把數(shù)據(jù)進行映射,要么映射到一個多個離散的標(biāo)簽上,或者是連續(xù)的空間里面,一般簡單的數(shù)據(jù)...
摘要:卷積神經(jīng)網(wǎng)絡(luò)除了為機器人和自動駕駛汽車的視覺助力之外,還可以成功識別人臉,物體和交通標(biāo)志。卷積卷積神經(jīng)網(wǎng)絡(luò)的名字來源于卷積運算。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積的主要目的是從輸入圖像中提取特征。 什么是卷積神經(jīng)網(wǎng)絡(luò),它為何重要?卷積神經(jīng)網(wǎng)絡(luò)(也稱作 ConvNets 或 CNN)是神經(jīng)網(wǎng)絡(luò)的一種,它在圖像識別和分類等領(lǐng)域已被證明非常有效。 卷積神經(jīng)網(wǎng)絡(luò)除了為機器人和自動駕駛汽車的視覺助力之外,還可以成...
閱讀 856·2023-04-25 21:21
閱讀 3237·2021-11-24 09:39
閱讀 3079·2021-09-02 15:41
閱讀 2009·2021-08-26 14:13
閱讀 1839·2019-08-30 11:18
閱讀 2786·2019-08-29 16:25
閱讀 517·2019-08-28 18:27
閱讀 1590·2019-08-28 18:17