摘要:而加快推動這一趨勢的,正是卷積神經(jīng)網(wǎng)絡(luò)得以雄起的大功臣。卷積神經(jīng)網(wǎng)絡(luò)面臨的挑戰(zhàn)對的深深的質(zhì)疑是有原因的。據(jù)此,也斷言卷積神經(jīng)網(wǎng)絡(luò)注定是沒有前途的神經(jīng)膠囊的提出在批判不足的同時,已然備好了解決方案,這就是我們即將討論的膠囊神經(jīng)網(wǎng)絡(luò),簡稱。
本文作者 張玉宏
2012年于電子科技大學(xué)獲計算機專業(yè)博士學(xué)位,2009~2011年美國西北大學(xué)聯(lián)合培養(yǎng)博士,現(xiàn)執(zhí)教于河南工業(yè)大學(xué),電子科技大學(xué)博士后。中國計算機協(xié)會(CCF)會員,YOCSEF鄭州2018~2019年度副主席,ACM/IEEE會員?!镀肺洞髷?shù)據(jù)》一書作者。
江山代有才人出,各領(lǐng)風(fēng)騷數(shù)百年。但在計算機科學(xué)領(lǐng)域,風(fēng)騷數(shù)十年都非常難。卷積神經(jīng)網(wǎng)絡(luò)在短短三十多年里,幾起幾落。別看它現(xiàn)在依然如日沖天,要知道,浪潮之巔的下一步,就是衰落。而加快推動這一趨勢的,正是卷積神經(jīng)網(wǎng)絡(luò)得以雄起的大功臣——Geoffrey Hinton。他提出了全新的“神經(jīng)膠囊”理論,這“膠囊”里到底裝的是什么“藥”呢??
從神經(jīng)元到神經(jīng)膠囊
在大計算和大數(shù)據(jù)的背景下,深度學(xué)習(xí)大行其道、大受歡迎,究其原因,卷積神經(jīng)網(wǎng)絡(luò)的出色表現(xiàn),可謂居功至偉。盡管如此,卷積神經(jīng)網(wǎng)絡(luò)也有其局限性,如訓(xùn)練數(shù)據(jù)需求大、環(huán)境適應(yīng)能力、可解釋性差、數(shù)據(jù)分享難等不足。
2017年10月,Hinton教授和他的團隊在機器學(xué)習(xí)的較高級會議“神經(jīng)信息處理系統(tǒng)大會(NIPS)”上發(fā)表論文,超越了自己前期的理論研究——反向傳播算法(BP),提出了一種全新的神經(jīng)網(wǎng)絡(luò)——膠囊網(wǎng)絡(luò)(CapsNet)。
2017年9月(論文發(fā)表的前一個月),在多倫多舉行的人工智能會議上,Hinton對他參與構(gòu)建的反向傳播(BP)理論表示深深的懷疑。Hinton還引用了著名物理學(xué)家馬克斯·普朗克的名言:“科學(xué)之道,不破不立”,來為自己的新理論站臺。
在這次會議上,Hinton最后總結(jié):
科學(xué)是踩著葬禮前行的,未來由極其質(zhì)疑我所說的一切的那批學(xué)生所決定。
卷積神經(jīng)網(wǎng)絡(luò)面臨的挑戰(zhàn)
Hinton對CNN的“深深的質(zhì)疑”是有原因的。CNN的內(nèi)在缺陷主要體現(xiàn)在3個方面。
CNN生物學(xué)基礎(chǔ)不足,難以“熟能生巧”。
CNN全連接模式過于冗余而低效。
CNN勝在特征檢測,但窮于特征理解。
Hinton評價說:“CNN分類正確率很高,看似一個大好局面,實則是一場災(zāi)難。”據(jù)此,Hinton也斷言:“卷積神經(jīng)網(wǎng)絡(luò)注定是沒有前途的!”
神經(jīng)膠囊的提出
Hinton在批判CNN不足的同時,已然備好了解決方案,這就是我們即將討論的“膠囊神經(jīng)網(wǎng)絡(luò)(Capsule Network,簡稱CapsNet)?!?/p>
Hinton認為CNN的不變性并不理想,“同變性”才是我們想要的。不變性指的是對象的表征,不隨對象X的“變換”而變化。從計算機視覺的角度來看,這里的變換包括平移、旋轉(zhuǎn)、放縮等。
由于CNN具有不變特性,它對物體的平移、旋轉(zhuǎn)和縮放等并不敏感。以北京故宮紫禁城門前的那尊獅子為例,這類變化并不影響CNN對方框內(nèi)獅子的識別。這自然大大提高了分類的魯棒性。
然而,任何性能的提升,通常都以犧牲某項性能為代價。CNN對分類性能的提升,同樣要付出成本。Hinton認為,平移、旋轉(zhuǎn)及縮放等變換之所以可以做到局部不變性,其實是以丟棄“坐標(biāo)框架”為代價的。沒有了坐標(biāo)的約束,自然也就用判斷圖像是否發(fā)生平移、旋轉(zhuǎn)或縮放。
而“同變性”則不會丟失這些信息,它只是對內(nèi)容做了一種變換。這就好比,畫紙相當(dāng)于坐標(biāo)框架,當(dāng)畫家畫了一個人合適大小的嘴巴時,具有格局觀的畫家(抽象派除外),就能知道臉的大致位置和大小該怎么畫。當(dāng)嘴巴畫斜了,臉自然也得傾斜才算是一張正常的臉。
類似地,在下圖中,當(dāng)數(shù)字“7”的位置發(fā)生變化時,人的視覺系統(tǒng)會自動建立“坐標(biāo)框架”,在此處,“坐標(biāo)框架”屬于先驗知識。坐標(biāo)框架會參與到識別過程中,識別過程受到了空間概念的支配,因此,它并不是一個獨立的過程。
不變性與同變性對比示意圖
在(a)子圖中,平移前的7和平移后的7的表征是一樣的(可以通過CNN的池化操作實現(xiàn)),這樣位置變了我們依然識別出7,但代價是我們根本無法判斷出7在圖像所處的位置。
在(b)子圖頭部所示的公式描述的是,對象x的表征,在經(jīng)過轉(zhuǎn)換(平移)之后,其結(jié)果等同于轉(zhuǎn)換之后對象的表征,這就是所謂的“同變性”。具體說到數(shù)字“7”的平移,平移前的7和平移后的7的表征里,包含有位置這個信息(這個可以通過后文即將講到神經(jīng)膠囊做到),這樣一來,我們不但能識別出7,還能判斷出7在圖像所處的位置。
于是,Hinton教授提出了一個設(shè)想:觀察者和物體之間的關(guān)系,應(yīng)該由一整套激活的神經(jīng)元來表征,而不是由單個神經(jīng)元或一組粗編碼的神經(jīng)元表征。只有這樣,有關(guān)“坐標(biāo)框架”之類的先驗知識才能有機會被表達出來。而這一整套神經(jīng)元,Hinton將其取名為“神經(jīng)膠囊”。
那么在神經(jīng)膠囊框架下,又是如何體現(xiàn)同變性呢?Hinton認為,同變性大致包括兩種類型:
位置編碼:當(dāng)內(nèi)容的位置發(fā)生較大變化時,則由不同的“膠囊”表示其內(nèi)容。
速率編碼:當(dāng)內(nèi)容的位置發(fā)生較小變化時,則由相同的“膠囊”表示其內(nèi)容,但是內(nèi)容有所改變。
二者的關(guān)聯(lián)是,高層的“膠囊”有更廣的域,低層的“位置編碼”信息通過匯總,抵達高層變成“速率編碼”。對這兩種編碼的理解,可以想象成兩種不同比例尺的地圖?!拔恢镁幋a”相當(dāng)于小比例尺的地圖(比如說街道級別),而“速率編碼”相當(dāng)于大比例尺的地圖(比如說地區(qū)級別)。
相比CNN,使用膠囊網(wǎng)絡(luò)的一大優(yōu)勢在于,它需要的訓(xùn)練數(shù)據(jù)量遠小于CNN,而效果卻毫不遜色于CNN。從這個意義上來講,神經(jīng)膠囊實際上更接近人腦的行為。我們知道,為了學(xué)會區(qū)分阿貓阿狗,小孩子也不過就學(xué)習(xí)了幾十個例子就可以做到。而當(dāng)前的CNN,動輒需要幾萬甚至幾十萬的案例才能取得很好的效果。這看起來,CNN的工作更像是在暴力破解,其工作機理顯然要比大腦低級,行為更是一點也不優(yōu)雅。
此外,和其他模型相比,膠囊網(wǎng)絡(luò)在不同角度的圖片分類上,有著更好的辨識度。例如,在下圖中,對應(yīng)的,上一列和下一列的圖片屬于同一類,它們僅僅是呈現(xiàn)的視角不同。的研究論文表明,相比于其他同類算法,使用膠囊網(wǎng)絡(luò),錯誤識別率顯著降低。
膠囊網(wǎng)絡(luò)的多角度圖片識別
神經(jīng)膠囊網(wǎng)絡(luò)t既然這么好用,勢必有強大的理論為之支撐。那么,它的理論基礎(chǔ)又是什么呢?
神經(jīng)膠囊理論基礎(chǔ)
神經(jīng)膠囊的生物學(xué)基礎(chǔ)
我們知道,人工神經(jīng)網(wǎng)絡(luò)在很大程度上是模仿生物神經(jīng)網(wǎng)絡(luò)而來的。作為“仿生派”的代表人物Hinton,他提出的“神經(jīng)膠囊”,同樣受益于腦科學(xué)的研究進展。
目前,大多數(shù)神經(jīng)解剖學(xué)研究都支持這樣一個結(jié)論——大部分哺乳類,特別是靈長類大腦皮層中存在大量稱為皮層微柱的柱狀結(jié)構(gòu),其內(nèi)部包含上百個神經(jīng)元,并存在內(nèi)部分層。
這些小模塊,非常擅長處理不同類型的可視化刺激。生物學(xué)家推測,大腦一定有某種機制,以某些權(quán)重“穿針引線”般組合低層次的可視化特征,從而構(gòu)建出我們“看到”的五彩繽紛的大千世界。
大腦皮層中普遍存在的皮層微柱這一研究發(fā)現(xiàn),極大啟發(fā)了Hinton。于是,Hinton提出了一個假想,物體和觀察者之間的關(guān)系,應(yīng)該由一整套而非一個激活的神經(jīng)元表征。
于是,在人工神經(jīng)網(wǎng)絡(luò)中,Hinton提出了一個對應(yīng)的結(jié)構(gòu),它就是我們前面提到的神經(jīng)膠囊。簡單來說,神經(jīng)膠囊是一組被打包的神經(jīng)元,它們在內(nèi)部做了大量運算,而后僅輸出一個被壓縮的結(jié)果——一個高維向量。
神經(jīng)膠囊網(wǎng)絡(luò)的哲學(xué)基礎(chǔ)
其實,人工智能領(lǐng)域也是哲學(xué)家們最愛光顧的地方之一。因為說到“智能”,就離不開“意識”“存在性”等基本問題。而這類問題,本來就是哲學(xué)的傳統(tǒng)地盤。
古話說,“形而下者為器,形而上者為道”。如果我們總是低頭看路,看到的都是具體的“器”,那我們肯定難以看到哲學(xué)的影子。但如果我們仰望星空,不再關(guān)注具體有形的事物,將研究視角提升到“道”的層面,Hinton提出的神經(jīng)膠囊,在哲學(xué)層面的意義,已然若隱若現(xiàn)。Hinton提出的理論,實際上踐行了哲學(xué)中的“本體論(Ontology)”。
簡單來說,本體論研究的問題,就是“什么是‘存在’”。拿香蕉來舉例,“香蕉”就是本體,而香蕉的圖片,香蕉的視頻,中文“香蕉”二字,英文單詞“banana”等,都是描述“本體”的外在符號。于是,這個世界上的所有圖像、音頻、視頻、語言等,都成為某種符號到實體的映射,這就是哲學(xué)意義上的“本體”。
事實上,哲學(xué)上的“本體論”,對信息科學(xué)是有啟發(fā)意義的。
回到神經(jīng)膠囊的討論上來。我們知道,一個活動的膠囊內(nèi)的神經(jīng)元活動,表示了特定實體的各種屬性。這些屬性包括但不限于不同類型的實例化參數(shù),例如前面提到的位姿(pose,包括位置、大小、方向等),形變,速度,反照率,色相,紋理等。某些特殊屬性的存在,就能表明某個類別實例的存在。
在機器學(xué)習(xí)領(lǐng)域,判斷存在性的一個簡易方法是,使用一個獨立的邏輯回歸單元,其輸出值是連續(xù)的,輸出范圍在[0,1]之間,其大小是實體存在的概率。比如,0表示肯定沒出現(xiàn),1表示確定出現(xiàn),中間值就是一個出現(xiàn)的概率。
有意思的是,Hinton等人提出了一個更加巧妙的替代方法。他們提出的神經(jīng)膠囊,其輸出值是一個高維向量,通過歸一化處理,可以用向量模長(length)表示實體存在的概率,同時用向量的各種“位姿”表示實體的各類屬性。如果一個向量在各個方向表現(xiàn)得都很顯著,那么它的模長自然也就越大,判定這個本體存在性概率就越高。
在這里面就蘊含了使用實體的屬性來定義實體存在性的本體論精髓。如果發(fā)現(xiàn)一個實體的各種屬性都有難以忽略的存在,那么該實體也必然存在。據(jù)此做分類依據(jù),自然也就非??孔V。
在傳統(tǒng)的深度學(xué)習(xí)模型(如CNN、RNN及DBN等)中,是沒有這樣的性質(zhì)的。
這是因為,在傳統(tǒng)深度學(xué)習(xí)網(wǎng)絡(luò)中,一個神經(jīng)元的激活只能表示某個實體(可理解為標(biāo)量神經(jīng)元),其維度的單一性決定了神經(jīng)元本身不能同時表示多個屬性。于是,不得不退而求其次事物的性質(zhì)只能隱含到茫茫的網(wǎng)絡(luò)參數(shù)之中。這樣一來,網(wǎng)絡(luò)的參數(shù)調(diào)整,動機就難以單純,它必須需要顧及到各類樣本的輸入,故此調(diào)參異常繁瑣而耗時,就在所難免了。
而現(xiàn)在就不同了,利用神經(jīng)膠囊,我們可以判定實體存在的各種性質(zhì)統(tǒng)統(tǒng)封裝在一個膠囊之內(nèi),于是,調(diào)參的約束條件就會大大減少,自然而然的結(jié)果,調(diào)參變得優(yōu)雅了,較佳的參數(shù)容易獲取了。?
今天我們?yōu)榇蠹規(guī)砹薃I領(lǐng)域非常前沿的“神經(jīng)膠囊”理論的分享,相信各位也意猶未盡,想要繼續(xù)探索“神經(jīng)膠囊”更深層的奧秘。關(guān)注“前沿技墅”,下一次將為大家全面揭秘“神經(jīng)膠囊”理論的工作流程、參數(shù)設(shè)計,并帶來較佳實踐,敬請期待。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4782.html
摘要:本文從可視化的角度出發(fā)詳解釋了的原理的計算過程,非常有利于直觀理解它的結(jié)構(gòu)。具體來說,是那些水平方向的邊緣。訓(xùn)練過程可以自動完成這一工作。更進一步地說,這意味著每個膠囊含有一個擁有個值的數(shù)組,而一般我們稱之為向量。 CapsNet 將神經(jīng)元的標(biāo)量輸出轉(zhuǎn)換為向量輸出提高了表征能力,我們不僅能用它表示圖像是否有某個特征,同時還能表示這個特征的旋轉(zhuǎn)和位置等物理特征。本文從可視化的角度出發(fā)詳解釋了 ...
摘要:膠囊網(wǎng)絡(luò)是一種熱門的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),它可能會對深度學(xué)習(xí)特別是計算機視覺領(lǐng)域產(chǎn)生深遠的影響。下幾層膠囊也嘗試檢測對象及其姿態(tài),但工作方式非常不同,即使用按協(xié)議路由算法。 膠囊網(wǎng)絡(luò)(Capsule networks, CapsNets)是一種熱門的新型神經(jīng)網(wǎng)絡(luò)架構(gòu),它可能會對深度學(xué)習(xí)特別是計算機視覺領(lǐng)域產(chǎn)生深遠的影響。等一下,難道計算機視覺問題還沒有被很好地解決嗎?卷積神經(jīng)網(wǎng)絡(luò)(Convolu...
摘要:鏈接是他們在數(shù)據(jù)集上達到了較先進的性能,并且在高度重疊的數(shù)字上表現(xiàn)出比卷積神經(jīng)網(wǎng)絡(luò)好得多的結(jié)果。在常規(guī)的卷積神經(jīng)網(wǎng)絡(luò)中,通常會有多個匯聚層,不幸的是,這些匯聚層的操作往往會丟失很多信息,比如目標(biāo)對象的準(zhǔn)確位置和姿態(tài)。 PPT由于筆者能力有限,本篇所有備注皆為專知內(nèi)容組成員根據(jù)講者視頻和PPT內(nèi)容自行補全,不代表講者本人的立場與觀點。膠囊網(wǎng)絡(luò)Capsule Networks你好!我是Aurél...
摘要:等人最近關(guān)于膠囊網(wǎng)絡(luò)的論文在機器學(xué)習(xí)領(lǐng)域造成相當(dāng)震撼的影響。它提出了理論上能更好地替代卷積神經(jīng)網(wǎng)絡(luò)的方案,是當(dāng)前計算機視覺領(lǐng)域的技術(shù)。而這就是這些膠囊網(wǎng)絡(luò)運行方式的本質(zhì)。為了簡化,我們將假設(shè)一個兩層的膠囊網(wǎng)絡(luò)。產(chǎn)生的結(jié)果值將被稱為。 Geoff Hinton等人最近關(guān)于膠囊網(wǎng)絡(luò)(Capsule networks)的論文在機器學(xué)習(xí)領(lǐng)域造成相當(dāng)震撼的影響。它提出了理論上能更好地替代卷積神經(jīng)網(wǎng)絡(luò)的...
摘要:在底層的膠囊之后連接了層和層。膠囊效果的討論在論文最后,作者們對膠囊的表現(xiàn)進行了討論。他們認為,由于膠囊具有分別處理不同屬性的能力,相比于可以提高對圖像變換的健壯性,在圖像分割中也會有出色的表現(xiàn)。 背景目前的神經(jīng)網(wǎng)絡(luò)中,每一層的神經(jīng)元都做的是類似的事情,比如一個卷積層內(nèi)的每個神經(jīng)元都做的是一樣的卷積操作。而Hinton堅信,不同的神經(jīng)元完全可以關(guān)注不同的實體或者屬性,比如在一開始就有不同的神...
閱讀 3243·2021-11-23 09:51
閱讀 2498·2021-09-27 13:34
閱讀 2482·2021-09-08 09:45
閱讀 678·2019-08-30 15:44
閱讀 3506·2019-08-29 12:17
閱讀 2771·2019-08-26 12:18
閱讀 2637·2019-08-26 10:10
閱讀 3090·2019-08-23 18:02