舉個(gè)卡戴珊的例子，講講Hinton的Capsule是怎么回事

Big_fat_cat 發(fā)布于2019-04-25 18:21 / 1660人閱讀

摘要：傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的問(wèn)題到目前為止，圖像分類問(wèn)題上較先進(jìn)的方法是。我們把卡戴珊姐姐旋轉(zhuǎn)出現(xiàn)這個(gè)問(wèn)題的原因，用行話來(lái)說(shuō)是旋轉(zhuǎn)的程度超出了較大池化所帶來(lái)的旋轉(zhuǎn)不變性的限度。

Capsule Networks，或者說(shuō)CapsNet，這個(gè)名字你應(yīng)該已經(jīng)聽(tīng)過(guò)好幾次了。

這是“深度學(xué)習(xí)之父”的Geoffrey Hinton近幾年一直在探索的領(lǐng)域，被視為突破性的新概念。最近，關(guān)于Capsule的論文終于公布了。

一篇即將發(fā)表于NIPS 2017：

Dynamic Routing Between Capsules

作者：Sara Sabour, Nicholas Frosst, Geoffrey E Hinton

https://arxiv.org/abs/1710.09829v2

另一篇是ICLR 2018正在匿名評(píng)審的：

Matrix capsules with EM routing

作者目前未知

https://openreview.net/pdf?id=HJWLfGWRb

要理解Capsule Networks，還得從卷積神經(jīng)網(wǎng)絡(luò)（CNN）的特性說(shuō)起。

傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的問(wèn)題

到目前為止，圖像分類問(wèn)題上較先進(jìn)的方法是CNN。

而CNN的工作原理，是將每一層對(duì)應(yīng)的特征累積起來(lái)，從尋找邊緣開(kāi)始，然后是形狀、再識(shí)別實(shí)際的對(duì)象。

然而，在這個(gè)過(guò)程中，所有這些特征的空間關(guān)系信息丟失了。

雖然可能有點(diǎn)過(guò)度簡(jiǎn)化了，不過(guò)我們可以把CNN看做這樣一個(gè)程序：

if (2 eyes && 1 nose && 1 mouth) {

? It"s a face!

}

翻譯成人話就是：如果有兩只眼睛、一個(gè)鼻子、一張嘴，它就是一張臉！

一般人看見(jiàn)這個(gè)表述，第一反應(yīng)大概是挺好的啊，有道理，沒(méi)毛病~

對(duì)，有道理，不過(guò)我們需要轉(zhuǎn)念想一想：這個(gè)表述還是有問(wèn)題的。不信？看一張略恐怖的卡戴珊姐姐照片：

確實(shí)是兩只眼睛一個(gè)鼻子一張嘴吧？

但我等人類都一眼就能看出來(lái)，這張照片不對(duì)勁啊！眼睛和嘴錯(cuò)位了啊！人不應(yīng)該長(zhǎng)這樣！識(shí)別成鬼還差不多……

可是呢，CNN會(huì)認(rèn)為，眼睛和嘴的位置不管在哪，都沒(méi)什么區(qū)別，會(huì)很寬容地，把這張照片歸類成“人”：

除了對(duì)人類五官的位置過(guò)于寬容之外，CNN還有還有一個(gè)毛病，就是對(duì)圖片的角度要求有點(diǎn)苛刻，它能容忍照片稍微旋轉(zhuǎn)一些，但要是旋轉(zhuǎn)太多，它就不認(rèn)得了。

我們把卡戴珊姐姐旋轉(zhuǎn)180°：

出現(xiàn)這個(gè)問(wèn)題的原因，用行話來(lái)說(shuō)是旋轉(zhuǎn)的程度超出了較大池化（maxpooling）所帶來(lái)的旋轉(zhuǎn)不變性（invariance）的限度。這其實(shí)有辦法解決，就是在訓(xùn)練中用上各種可能角度的圖片，行話叫做data augmentation。不過(guò)，這種做法實(shí)在是耗時(shí)費(fèi)力。

另外，CNN還很容易受到白盒對(duì)抗性攻擊（adversarial attacks）的影響，在圖片上悄悄藏一些圖案，就能讓CNN把它誤認(rèn)作別的東西。

谷歌的神經(jīng)網(wǎng)絡(luò)把海龜誤認(rèn)成步槍，就是這個(gè)毛?。?/p>

所以Hinton老爺子才會(huì)覺(jué)得CNN不行。（Hinton真的很嚴(yán)格）

Capsule Networks前來(lái)救援！

CapsNet架構(gòu)

Capsule Networks就能讓我們充分利用空間關(guān)系，看到更多東西。在認(rèn)人臉這件事上，可以這么表示：

if (2 adjacent eyes && nose under eyes && mouth under nose) {

? It"s a face!

}

翻譯成人話：如果有兩只相鄰的眼睛、眼睛下有一個(gè)鼻子、鼻子下有一張嘴，它就是一張臉。

你應(yīng)該能看出來(lái)，這樣來(lái)定義，神經(jīng)網(wǎng)絡(luò)就不會(huì)把畸形版卡戴珊姐姐也認(rèn)作人臉了。

這種新架構(gòu)還更善于從不同角度來(lái)識(shí)別形狀，它在下面這個(gè)數(shù)據(jù)集上，可以獲得更高的精度。這個(gè)精心設(shè)計(jì)的數(shù)據(jù)集就是用來(lái)進(jìn)行單純的形狀識(shí)別，甚至是從不同的角度識(shí)別的。Capsule Networks擊敗了較先進(jìn)的CNN，將錯(cuò)誤數(shù)量減少了45%。

CapsNet把第二行圖片識(shí)別為第一行同類圖片的能力遠(yuǎn)超CNN

此外，最近發(fā)布的論文表明，與卷積神經(jīng)網(wǎng)絡(luò)相比，Capsules對(duì)白盒對(duì)抗性攻擊顯示出更大的抵抗力。

訓(xùn)練CapsNet

重點(diǎn)來(lái)了：要想理解一篇論文，較好的方法是把它實(shí)現(xiàn)出來(lái)。

Bourdakos基于Hinton的論文，寫(xiě)出了一份CapsNet的TensorFlow實(shí)現(xiàn)

代碼：https://github.com/bourdakos1/capsule-networks

接下來(lái)的內(nèi)容，就是要介紹如何訓(xùn)練它。

下面以如何在MNIST數(shù)據(jù)集上訓(xùn)練模型為例。這是一個(gè)著名的手寫(xiě)數(shù)字的數(shù)據(jù)集，是測(cè)試機(jī)器學(xué)習(xí)算法的良好基準(zhǔn)。

首先從克隆repo開(kāi)始：

git clone https://github.com/bourdakos1/capsule-networks.git

然后安裝需求。

pip install -r requirements.txt

開(kāi)始訓(xùn)練！

python main.py

MNIST數(shù)據(jù)集有6萬(wàn)個(gè)訓(xùn)練圖像。默認(rèn)情況下，模型將以128的batch size訓(xùn)練50個(gè)epoch周期。一個(gè)epoch代表訓(xùn)練集的一次完整運(yùn)行。由于batch size是128，所以每個(gè)epoch大約有468個(gè)batch。

注意：如果你沒(méi)有GPU，訓(xùn)練可能需要很長(zhǎng)的時(shí)間。

推理

一旦模型完整訓(xùn)練過(guò)，就可以通過(guò)以下命令來(lái)測(cè)試：

python main.py --is_training False

結(jié)論

Capsule Networks似乎很棒，但仍在嬰兒期，在訓(xùn)練大型數(shù)據(jù)集時(shí)可能遇到一些問(wèn)題，但信心還是要有的。

歡迎加入本站公開(kāi)興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識(shí)

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器老的云服務(wù)器失敗是怎么回事啊老版的云服務(wù)器失敗是怎么回事是怎么回事呢云存儲(chǔ)是怎么回事

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/4676.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

Big_fat_cat

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

Codepen 每日精選（2018-4-13）

閱讀 2492·2019-08-30 15:53
【前端學(xué)習(xí)】-margin

閱讀 2598·2019-08-29 13:11
重拾css(2)——帶著問(wèn)題出發(fā)

閱讀 2692·2019-08-29 12:45
CSS常見(jiàn)布局解決方案

閱讀 3515·2019-08-29 12:41
ES6 class extends

閱讀 2363·2019-08-26 10:14
玩轉(zhuǎn)控制臺(tái)，看看那些你不知道的Console用法

閱讀 2191·2019-08-23 14:39
淺析git

閱讀 2335·2019-08-23 12:38
Redux專題：實(shí)用

閱讀 3409·2019-08-23 12:04

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

舉個(gè)卡戴珊的例子，講講Hinton的Capsule是怎么回事

相關(guān)文章

膠囊 (向量神經(jīng)) 網(wǎng)絡(luò)

**淺析 Hinton 最近提出的 Capsule 計(jì)劃**

**揭開(kāi)迷霧，來(lái)一頓美味的「Capsule」盛宴 | 附代碼實(shí)現(xiàn) + 全新實(shí)驗(yàn)**

**【一文讀懂Hinton最新Capsules論文】CNN 未來(lái)向何處去**

**Geoffrey Hinton：放棄反向傳播，我們的人工智能需要重頭再來(lái)**

發(fā)表評(píng)論

0條評(píng)論

Big_fat_cat

男|高級(jí)講師

TA的文章

Codepen 每日精選（2018-4-13）

【前端學(xué)習(xí)】-margin

重拾css(2)——帶著問(wèn)題出發(fā)

CSS常見(jiàn)布局解決方案

ES6 class extends

玩轉(zhuǎn)控制臺(tái)，看看那些你不知道的Console用法

淺析git

Redux專題：實(shí)用

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

舉個(gè)卡戴珊的例子，講講Hinton的Capsule是怎么回事

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來(lái)選購(gòu)！

舉個(gè)卡戴珊的例子，講講Hinton的Capsule是怎么回事