卷積網(wǎng)絡(luò)雖動人，膠囊網(wǎng)絡(luò)更傳“神”

zhisheng 發(fā)布于2019-04-25 18:27 / 1300人閱讀

摘要：而加快推動這一趨勢的，正是卷積神經(jīng)網(wǎng)絡(luò)得以雄起的大功臣。卷積神經(jīng)網(wǎng)絡(luò)面臨的挑戰(zhàn)對的深深的質(zhì)疑是有原因的。據(jù)此，也斷言卷積神經(jīng)網(wǎng)絡(luò)注定是沒有前途的神經(jīng)膠囊的提出在批判不足的同時，已然備好了解決方案，這就是我們即將討論的膠囊神經(jīng)網(wǎng)絡(luò)，簡稱。

本文作者張玉宏

2012年于電子科技大學(xué)獲計算機專業(yè)博士學(xué)位，2009~2011年美國西北大學(xué)聯(lián)合培養(yǎng)博士，現(xiàn)執(zhí)教于河南工業(yè)大學(xué)，電子科技大學(xué)博士后。中國計算機協(xié)會（CCF）會員，YOCSEF鄭州2018~2019年度副主席，ACM/IEEE會員?！镀肺洞髷?shù)據(jù)》一書作者。

江山代有才人出，各領(lǐng)風(fēng)騷數(shù)百年。但在計算機科學(xué)領(lǐng)域，風(fēng)騷數(shù)十年都非常難。卷積神經(jīng)網(wǎng)絡(luò)在短短三十多年里，幾起幾落。別看它現(xiàn)在依然如日沖天，要知道，浪潮之巔的下一步，就是衰落。而加快推動這一趨勢的，正是卷積神經(jīng)網(wǎng)絡(luò)得以雄起的大功臣——Geoffrey Hinton。他提出了全新的“神經(jīng)膠囊”理論，這“膠囊”里到底裝的是什么“藥”呢？?

從神經(jīng)元到神經(jīng)膠囊

在大計算和大數(shù)據(jù)的背景下，深度學(xué)習(xí)大行其道、大受歡迎，究其原因，卷積神經(jīng)網(wǎng)絡(luò)的出色表現(xiàn)，可謂居功至偉。盡管如此，卷積神經(jīng)網(wǎng)絡(luò)也有其局限性，如訓(xùn)練數(shù)據(jù)需求大、環(huán)境適應(yīng)能力、可解釋性差、數(shù)據(jù)分享難等不足。

2017年10月，Hinton教授和他的團隊在機器學(xué)習(xí)的較高級會議“神經(jīng)信息處理系統(tǒng)大會（NIPS）”上發(fā)表論文，超越了自己前期的理論研究——反向傳播算法（BP），提出了一種全新的神經(jīng)網(wǎng)絡(luò)——膠囊網(wǎng)絡(luò)（CapsNet）。

2017年9月（論文發(fā)表的前一個月），在多倫多舉行的人工智能會議上，Hinton對他參與構(gòu)建的反向傳播（BP）理論表示深深的懷疑。Hinton還引用了著名物理學(xué)家馬克斯·普朗克的名言：“科學(xué)之道，不破不立”，來為自己的新理論站臺。

在這次會議上，Hinton最后總結(jié)：

科學(xué)是踩著葬禮前行的，未來由極其質(zhì)疑我所說的一切的那批學(xué)生所決定。

卷積神經(jīng)網(wǎng)絡(luò)面臨的挑戰(zhàn)

Hinton對CNN的“深深的質(zhì)疑”是有原因的。CNN的內(nèi)在缺陷主要體現(xiàn)在3個方面。

CNN生物學(xué)基礎(chǔ)不足，難以“熟能生巧”。

CNN全連接模式過于冗余而低效。

CNN勝在特征檢測，但窮于特征理解。

Hinton評價說：“CNN分類正確率很高，看似一個大好局面，實則是一場災(zāi)難。”據(jù)此，Hinton也斷言：“卷積神經(jīng)網(wǎng)絡(luò)注定是沒有前途的！”

神經(jīng)膠囊的提出

Hinton在批判CNN不足的同時，已然備好了解決方案，這就是我們即將討論的“膠囊神經(jīng)網(wǎng)絡(luò)（Capsule Network，簡稱CapsNet）?！?/p>

Hinton認為CNN的不變性并不理想，“同變性”才是我們想要的。不變性指的是對象的表征，不隨對象X的“變換”而變化。從計算機視覺的角度來看，這里的變換包括平移、旋轉(zhuǎn)、放縮等。

由于CNN具有不變特性，它對物體的平移、旋轉(zhuǎn)和縮放等并不敏感。以北京故宮紫禁城門前的那尊獅子為例，這類變化并不影響CNN對方框內(nèi)獅子的識別。這自然大大提高了分類的魯棒性。

然而，任何性能的提升，通常都以犧牲某項性能為代價。CNN對分類性能的提升，同樣要付出成本。Hinton認為，平移、旋轉(zhuǎn)及縮放等變換之所以可以做到局部不變性，其實是以丟棄“坐標(biāo)框架”為代價的。沒有了坐標(biāo)的約束，自然也就用判斷圖像是否發(fā)生平移、旋轉(zhuǎn)或縮放。

而“同變性”則不會丟失這些信息，它只是對內(nèi)容做了一種變換。這就好比，畫紙相當(dāng)于坐標(biāo)框架，當(dāng)畫家畫了一個人合適大小的嘴巴時，具有格局觀的畫家（抽象派除外），就能知道臉的大致位置和大小該怎么畫。當(dāng)嘴巴畫斜了，臉自然也得傾斜才算是一張正常的臉。

類似地，在下圖中，當(dāng)數(shù)字“7”的位置發(fā)生變化時，人的視覺系統(tǒng)會自動建立“坐標(biāo)框架”，在此處，“坐標(biāo)框架”屬于先驗知識。坐標(biāo)框架會參與到識別過程中，識別過程受到了空間概念的支配，因此，它并不是一個獨立的過程。

不變性與同變性對比示意圖

在（a）子圖中，平移前的7和平移后的7的表征是一樣的（可以通過CNN的池化操作實現(xiàn)），這樣位置變了我們依然識別出7，但代價是我們根本無法判斷出7在圖像所處的位置。

在（b）子圖頭部所示的公式描述的是，對象x的表征，在經(jīng)過轉(zhuǎn)換（平移）之后，其結(jié)果等同于轉(zhuǎn)換之后對象的表征，這就是所謂的“同變性”。具體說到數(shù)字“7”的平移，平移前的7和平移后的7的表征里，包含有位置這個信息（這個可以通過后文即將講到神經(jīng)膠囊做到），這樣一來，我們不但能識別出7，還能判斷出7在圖像所處的位置。

于是，Hinton教授提出了一個設(shè)想：觀察者和物體之間的關(guān)系，應(yīng)該由一整套激活的神經(jīng)元來表征，而不是由單個神經(jīng)元或一組粗編碼的神經(jīng)元表征。只有這樣，有關(guān)“坐標(biāo)框架”之類的先驗知識才能有機會被表達出來。而這一整套神經(jīng)元，Hinton將其取名為“神經(jīng)膠囊”。

那么在神經(jīng)膠囊框架下，又是如何體現(xiàn)同變性呢？Hinton認為，同變性大致包括兩種類型：

位置編碼：當(dāng)內(nèi)容的位置發(fā)生較大變化時，則由不同的“膠囊”表示其內(nèi)容。

速率編碼：當(dāng)內(nèi)容的位置發(fā)生較小變化時，則由相同的“膠囊”表示其內(nèi)容，但是內(nèi)容有所改變。

二者的關(guān)聯(lián)是，高層的“膠囊”有更廣的域，低層的“位置編碼”信息通過匯總，抵達高層變成“速率編碼”。對這兩種編碼的理解，可以想象成兩種不同比例尺的地圖?！拔恢镁幋a”相當(dāng)于小比例尺的地圖（比如說街道級別），而“速率編碼”相當(dāng)于大比例尺的地圖（比如說地區(qū)級別）。

相比CNN，使用膠囊網(wǎng)絡(luò)的一大優(yōu)勢在于，它需要的訓(xùn)練數(shù)據(jù)量遠小于CNN，而效果卻毫不遜色于CNN。從這個意義上來講，神經(jīng)膠囊實際上更接近人腦的行為。我們知道，為了學(xué)會區(qū)分阿貓阿狗，小孩子也不過就學(xué)習(xí)了幾十個例子就可以做到。而當(dāng)前的CNN，動輒需要幾萬甚至幾十萬的案例才能取得很好的效果。這看起來，CNN的工作更像是在暴力破解，其工作機理顯然要比大腦低級，行為更是一點也不優(yōu)雅。

此外，和其他模型相比，膠囊網(wǎng)絡(luò)在不同角度的圖片分類上，有著更好的辨識度。例如，在下圖中，對應(yīng)的，上一列和下一列的圖片屬于同一類，它們僅僅是呈現(xiàn)的視角不同。的研究論文表明，相比于其他同類算法，使用膠囊網(wǎng)絡(luò)，錯誤識別率顯著降低。

膠囊網(wǎng)絡(luò)的多角度圖片識別

神經(jīng)膠囊網(wǎng)絡(luò)t既然這么好用，勢必有強大的理論為之支撐。那么，它的理論基礎(chǔ)又是什么呢？

神經(jīng)膠囊理論基礎(chǔ)

神經(jīng)膠囊的生物學(xué)基礎(chǔ)

我們知道，人工神經(jīng)網(wǎng)絡(luò)在很大程度上是模仿生物神經(jīng)網(wǎng)絡(luò)而來的。作為“仿生派”的代表人物Hinton，他提出的“神經(jīng)膠囊”，同樣受益于腦科學(xué)的研究進展。

目前，大多數(shù)神經(jīng)解剖學(xué)研究都支持這樣一個結(jié)論——大部分哺乳類，特別是靈長類大腦皮層中存在大量稱為皮層微柱的柱狀結(jié)構(gòu)，其內(nèi)部包含上百個神經(jīng)元，并存在內(nèi)部分層。

這些小模塊，非常擅長處理不同類型的可視化刺激。生物學(xué)家推測，大腦一定有某種機制，以某些權(quán)重“穿針引線”般組合低層次的可視化特征，從而構(gòu)建出我們“看到”的五彩繽紛的大千世界。

大腦皮層中普遍存在的皮層微柱這一研究發(fā)現(xiàn)，極大啟發(fā)了Hinton。于是，Hinton提出了一個假想，物體和觀察者之間的關(guān)系，應(yīng)該由一整套而非一個激活的神經(jīng)元表征。

于是，在人工神經(jīng)網(wǎng)絡(luò)中，Hinton提出了一個對應(yīng)的結(jié)構(gòu)，它就是我們前面提到的神經(jīng)膠囊。簡單來說，神經(jīng)膠囊是一組被打包的神經(jīng)元，它們在內(nèi)部做了大量運算，而后僅輸出一個被壓縮的結(jié)果——一個高維向量。

神經(jīng)膠囊網(wǎng)絡(luò)的哲學(xué)基礎(chǔ)

其實，人工智能領(lǐng)域也是哲學(xué)家們最愛光顧的地方之一。因為說到“智能”，就離不開“意識”“存在性”等基本問題。而這類問題，本來就是哲學(xué)的傳統(tǒng)地盤。

古話說，“形而下者為器，形而上者為道”。如果我們總是低頭看路，看到的都是具體的“器”，那我們肯定難以看到哲學(xué)的影子。但如果我們仰望星空，不再關(guān)注具體有形的事物，將研究視角提升到“道”的層面，Hinton提出的神經(jīng)膠囊，在哲學(xué)層面的意義，已然若隱若現(xiàn)。Hinton提出的理論，實際上踐行了哲學(xué)中的“本體論（Ontology）”。

簡單來說，本體論研究的問題，就是“什么是‘存在’”。拿香蕉來舉例，“香蕉”就是本體，而香蕉的圖片，香蕉的視頻，中文“香蕉”二字，英文單詞“banana”等，都是描述“本體”的外在符號。于是，這個世界上的所有圖像、音頻、視頻、語言等，都成為某種符號到實體的映射，這就是哲學(xué)意義上的“本體”。

事實上，哲學(xué)上的“本體論”，對信息科學(xué)是有啟發(fā)意義的。

回到神經(jīng)膠囊的討論上來。我們知道，一個活動的膠囊內(nèi)的神經(jīng)元活動，表示了特定實體的各種屬性。這些屬性包括但不限于不同類型的實例化參數(shù)，例如前面提到的位姿（pose，包括位置、大小、方向等），形變，速度，反照率，色相，紋理等。某些特殊屬性的存在，就能表明某個類別實例的存在。

在機器學(xué)習(xí)領(lǐng)域，判斷存在性的一個簡易方法是，使用一個獨立的邏輯回歸單元，其輸出值是連續(xù)的，輸出范圍在[0,1]之間，其大小是實體存在的概率。比如，0表示肯定沒出現(xiàn)，1表示確定出現(xiàn)，中間值就是一個出現(xiàn)的概率。

有意思的是，Hinton等人提出了一個更加巧妙的替代方法。他們提出的神經(jīng)膠囊，其輸出值是一個高維向量，通過歸一化處理，可以用向量模長（length）表示實體存在的概率，同時用向量的各種“位姿”表示實體的各類屬性。如果一個向量在各個方向表現(xiàn)得都很顯著，那么它的模長自然也就越大，判定這個本體存在性概率就越高。

在這里面就蘊含了使用實體的屬性來定義實體存在性的本體論精髓。如果發(fā)現(xiàn)一個實體的各種屬性都有難以忽略的存在，那么該實體也必然存在。據(jù)此做分類依據(jù)，自然也就非?？孔V。

在傳統(tǒng)的深度學(xué)習(xí)模型（如CNN、RNN及DBN等）中，是沒有這樣的性質(zhì)的。

這是因為，在傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)中，一個神經(jīng)元的激活只能表示某個實體（可理解為標(biāo)量神經(jīng)元），其維度的單一性決定了神經(jīng)元本身不能同時表示多個屬性。于是，不得不退而求其次事物的性質(zhì)只能隱含到茫茫的網(wǎng)絡(luò)參數(shù)之中。這樣一來，網(wǎng)絡(luò)的參數(shù)調(diào)整，動機就難以單純，它必須需要顧及到各類樣本的輸入，故此調(diào)參異常繁瑣而耗時，就在所難免了。

而現(xiàn)在就不同了，利用神經(jīng)膠囊，我們可以判定實體存在的各種性質(zhì)統(tǒng)統(tǒng)封裝在一個膠囊之內(nèi)，于是，調(diào)參的約束條件就會大大減少，自然而然的結(jié)果，調(diào)參變得優(yōu)雅了，較佳的參數(shù)容易獲取了。?

今天我們?yōu)榇蠹規(guī)砹薃I領(lǐng)域非常前沿的“神經(jīng)膠囊”理論的分享，相信各位也意猶未盡，想要繼續(xù)探索“神經(jīng)膠囊”更深層的奧秘。關(guān)注“前沿技墅”，下一次將為大家全面揭秘“神經(jīng)膠囊”理論的工作流程、參數(shù)設(shè)計，并帶來較佳實踐，敬請期待。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器 python卷積網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò) 網(wǎng)絡(luò)神偷卷積網(wǎng)絡(luò)gpu并行實例

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4782.html

發(fā)表評論

登陸后可評論

0條評論

zhisheng

男|高級講師

我要關(guān)注我要私信

TA的文章

繼微軟之后，Kyndryl 與 VMware 、SAP建立合作伙伴關(guān)系

閱讀 3243·2021-11-23 09:51
【網(wǎng)絡(luò)安全】無需SOCKS支持，幫助廣大滲透測試人員建立一條隱蔽的通信信道

閱讀 2498·2021-09-27 13:34
開源早讀課周刊（第 7 期）：亞馬遜的開源“合作共贏”

閱讀 2482·2021-09-08 09:45
籃球數(shù)據(jù)API接口 - 【籃球隊員】API調(diào)用示例代碼

閱讀 678·2019-08-30 15:44
ios頁面overflow:scroll;滾動不流暢及手機web頁面，軟鍵盤彈出，輸入框被遮住

閱讀 3506·2019-08-29 12:17
基于jQuery封裝的分頁組件（可自定義設(shè)置）

閱讀 2771·2019-08-26 12:18
為react賦能的concent是什么，何以值得一試

閱讀 2637·2019-08-26 10:10
使用html2canvas.js實現(xiàn)功能中遇到的一些問題

閱讀 3090·2019-08-23 18:02

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

卷積網(wǎng)絡(luò)雖動人，膠囊網(wǎng)絡(luò)更傳“神”

相關(guān)文章

可視化CapsNet，詳解Hinton等人提出的膠囊概念與原理

**膠囊網(wǎng)絡(luò)為何如此熱門？與卷積神經(jīng)網(wǎng)絡(luò)相比誰能更甚一籌？**

**膠囊網(wǎng)絡(luò)9大優(yōu)勢4大缺陷**

**CapsNet日益火爆！Hinton大神橫掃AI界的「膠囊網(wǎng)絡(luò)」如何理解？**

深度學(xué)習(xí)教父Geoffrey Hinton的“膠囊理論”終于發(fā)出論文

發(fā)表評論

0條評論

zhisheng

男|高級講師

TA的文章

繼微軟之后，Kyndryl 與 VMware 、SAP建立合作伙伴關(guān)系

【網(wǎng)絡(luò)安全】無需SOCKS支持，幫助廣大滲透測試人員建立一條隱蔽的通信信道

開源早讀課周刊（第 7 期）：亞馬遜的開源“合作共贏”

籃球數(shù)據(jù)API接口 - 【籃球隊員】API調(diào)用示例代碼

ios頁面overflow:scroll;滾動不流暢及手機web頁面，軟鍵盤彈出，輸入框被遮住

基于jQuery封裝的分頁組件（可自定義設(shè)置）

為react賦能的concent是什么，何以值得一試

使用html2canvas.js實現(xiàn)功能中遇到的一些問題

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

卷積網(wǎng)絡(luò)雖動人，膠囊網(wǎng)絡(luò)更傳“神”

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！