成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

機(jī)器視覺(jué)與深度神經(jīng)網(wǎng)絡(luò):洗去浮華,一窺珠璣

Joonas / 1237人閱讀

摘要:近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域隨著深度神經(jīng)網(wǎng)絡(luò)的崛起而迎來(lái)新一波的春天,尤其最近兩年無(wú)論學(xué)界還是業(yè)界,或是各大媒體,甚至文盲老百姓都言必稱智能。

近年來(lái)機(jī)器學(xué)習(xí)、AI領(lǐng)域隨著深度神經(jīng)網(wǎng)絡(luò)(DNN)的崛起而迎來(lái)新一波的春天,尤其最近兩年無(wú)論學(xué)界還是業(yè)界,或是各大媒體,甚至文盲老百姓都言必稱“智能”。關(guān)于這方面,可討論的東西實(shí)在太多太多,我不想寫(xiě)成一本厚厚的書(shū),所以在此僅以機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺(jué)和圖像領(lǐng)域的人臉識(shí)別應(yīng)用作為一個(gè)例子,來(lái)陪著大家看看這場(chǎng)熱潮、浮華背后有哪些被專家學(xué)者們忽視或輕視,但卻有著根本性重要的東西,并同時(shí)提出本領(lǐng)域的若干值得展開(kāi)的創(chuàng)新性研究方向。好了,廢話少說(shuō),且看DNN的大戲上演。

2014年對(duì)于人臉識(shí)別領(lǐng)域來(lái)講可謂是“歡欣鼓舞”的一年,在LFW數(shù)據(jù)集(labeled faces in the wild)上的評(píng)測(cè)結(jié)果被連續(xù)“刷表”,首先是Facebook的AI Lab發(fā)表論文Deep Face報(bào)告了accuracy達(dá)到97.25%,緊接著Face++的《Learning Deep Face Representation》小小勝出達(dá)到97.3%,結(jié)果板凳還沒(méi)坐熱就被香港中文大學(xué)的Xiaoou Tang和Xiaogang Wang實(shí)驗(yàn)室的GaussianFace刷到了98.52%,宣稱首次超越了“人類的識(shí)別能力”(97.53%)。然后,此次在新加坡VISVA 2014 winter-school上看到Xiaogang Wang報(bào)告,他們的DeepID2將上述記錄刷到了99.15%。下圖1是引自Gaussian Face一文,作為展示各大新近算法那“優(yōu)美”ROC曲線的一個(gè)示例。

圖1:多種算法在LFW數(shù)據(jù)集上的ROC曲線

可以想象,各大科技媒體、投資機(jī)構(gòu)、業(yè)界巨頭等都將目光、熱忱投向了AI領(lǐng)域,仿佛雙目所及都是滿滿的“$_$”;各大磚家學(xué)者、大蝦菜鳥(niǎo)也都或奔走相告、粉墨登場(chǎng)如巡回演唱般,或摩拳擦掌、瘋狂涌入想著趁熱沾沾光、分一杯羹。

古人云,“不知者不罪”,對(duì)于那些不懂AI、機(jī)器學(xué)習(xí)以及深度神經(jīng)網(wǎng)絡(luò)(后簡(jiǎn)稱DNN)理論及方法的人還情有可原,但是那些具備多年知識(shí)積淀和實(shí)戰(zhàn)經(jīng)驗(yàn)的磚家們,我就分不清他們是真的“too young too naive”還是另有原因了。在這場(chǎng)浮華背后,我為大家撥開(kāi)云霧,看看那些被忽視或掩蓋起來(lái)的本質(zhì)問(wèn)題。

1、Unfair comparison

各大研究機(jī)構(gòu)論文中報(bào)告的accuracy,通常都會(huì)同時(shí)與其它的多個(gè)算法系統(tǒng)進(jìn)行對(duì)比,但是這些對(duì)比是unfair的!因?yàn)樗鼈冊(cè)谀P偷挠?xùn)練階段,使用的training data差別迥異,而且絕大多數(shù)image都是不在LFW數(shù)據(jù)集里面out-set data。眾所周知,欲對(duì)比算法、模型的優(yōu)劣,必先固定訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集,為各candidates營(yíng)造公平的周邊條件和評(píng)價(jià)準(zhǔn)繩。

2、算法之間的性能差異未經(jīng)統(tǒng)計(jì)檢驗(yàn)——不靠譜

“拍拍腦袋,設(shè)計(jì)了一個(gè)新算法,一頓coding之后,放到XXX數(shù)據(jù)集上一跑,做個(gè)10-fold cross validation,拿著accuracy rate跟其它論文方法一對(duì)比,發(fā)現(xiàn)有0.5個(gè)百分點(diǎn)的提升,于是欣喜若狂、普大喜奔、paper滿天飛”……這就是計(jì)算機(jī)視覺(jué)領(lǐng)域乃至整個(gè)AI領(lǐng)域的現(xiàn)狀。然而,學(xué)過(guò)統(tǒng)計(jì)的人都應(yīng)該提這樣的問(wèn)題:“算法A與算法B的差異,究竟是隨機(jī)因素引起的波動(dòng),還是具有統(tǒng)計(jì)顯著性的?它們的output error rate波動(dòng)特性如何?……”這本身又可以看成一個(gè)假設(shè)檢驗(yàn)問(wèn)題,例如可使用ANOVA、F-test、t-檢驗(yàn)等來(lái)研究,看看是否在 (=0.05)顯著性水平上,算法A優(yōu)于算法B這個(gè)假設(shè)是可接受的。但可笑的是,從未見(jiàn)有人用這種“科學(xué)”態(tài)度和精神來(lái)對(duì)待這些“科學(xué)問(wèn)題”!

3、人臉識(shí)別算法性能超越人類?——我讀書(shū)少,你別騙我

假設(shè)某算法A在某數(shù)據(jù)集X上的accuracy比某“人”的識(shí)別結(jié)果高,能斷言算法A優(yōu)于“人類”的識(shí)別性能嗎?請(qǐng)別欺我沒(méi)學(xué)過(guò)統(tǒng)計(jì)。這個(gè)問(wèn)題有點(diǎn)類似上述問(wèn)題2,但是稍微更復(fù)雜點(diǎn)。

對(duì)于一個(gè)具體的人,例如張三,他的decision model可以簡(jiǎn)記為“算法B”。而“人類”是一個(gè)類屬概念,可以認(rèn)為是很多不同的decision models構(gòu)成的model-class。好吧,至此在我有限的知識(shí)范圍內(nèi),縱觀數(shù)學(xué)和計(jì)算機(jī)學(xué)界還沒(méi)有人提出過(guò)一個(gè)合理的metric(度量),來(lái)評(píng)價(jià)一個(gè)算法A與某個(gè)“模型族”的性能差異,以及該差異的統(tǒng)計(jì)檢驗(yàn)指標(biāo)……

如果有哪位專家對(duì)此領(lǐng)域頗有建樹(shù),已經(jīng)超越美帝、秘密而低調(diào)地走在國(guó)際最前沿,還敬請(qǐng)回信指教,在此我先行謝過(guò)。

4、只看數(shù)字指標(biāo),忘了產(chǎn)品和應(yīng)用“標(biāo)的”

究竟我們研究人臉識(shí)別算法干嘛用?這里簡(jiǎn)單談兩個(gè)方面的應(yīng)用,一者娛樂(lè)用,另一者那是相當(dāng)?shù)摹安粖蕵?lè)”啊。先說(shuō)前者,舉個(gè)栗子就是百度魔圖去年搞的“pk大咖明星臉”(測(cè)測(cè)你與哪個(gè)明星長(zhǎng)得像,如圖2a)和“全民大穿越”(看看你跟各種電視劇里的誰(shuí)比較像,圖2b)。顯然,對(duì)于這樣的非嚴(yán)肅場(chǎng)景,即使識(shí)別錯(cuò)了也無(wú)妨,甚至還錯(cuò)得蠻可愛(ài)的。在這類應(yīng)用中,根本無(wú)需太追求算法的accuracy,更遑論絞盡腦汁、苦苦地追尋那97%到98%的微不足道的、毫無(wú)意義的提升。

圖2:百度魔圖的兩個(gè)娛樂(lè)應(yīng)用

然而對(duì)于另一類應(yīng)用,例如biometric(生物身份識(shí)別),那就千萬(wàn)馬虎不得了。打個(gè)比方某銀行推出了“刷臉取錢(qián)”的快捷服務(wù),就是你往ATM機(jī)前一站,它能自動(dòng)識(shí)別你是張三還是李四,然后驗(yàn)證通過(guò)就咔咔吐出一堆鈔票,確實(shí)挺酷?,F(xiàn)在拿目前較先進(jìn)的算法DeepID2來(lái)看,號(hào)稱accuracy 99%。于是張三在ATM機(jī)前多晃悠幾十次,就沒(méi)準(zhǔn)碰上被誤識(shí)別為李四,畢竟1%的概率嘛(這是個(gè)戲謔的概數(shù),嚴(yán)謹(jǐn)來(lái)說(shuō)不是這個(gè)值,此處暫且按下不表),然后把李四賬戶的錢(qián)全卷跑了。

通常,在金融系統(tǒng)中,要求在0.1%的FAR(false accept rate)下verification rate達(dá)到99%,才可以投入實(shí)用。而根據(jù)的研究發(fā)現(xiàn),在FAR=0.1%的約束下,目前較好的算法verification rate=41.66%,還遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)用的地步。

至此,我所理解的全世界專家們孜孜不倦地追求high accuracy的算法,應(yīng)該是要應(yīng)用到類似biometric這樣的嚴(yán)肅場(chǎng)合。那么問(wèn)題來(lái)了,他們?yōu)楹尾恢苯硬捎眠@類場(chǎng)合通用的評(píng)價(jià)標(biāo)準(zhǔn)“verification rate @ low FAR”,卻籠統(tǒng)地用了個(gè)掩耳盜鈴的accuracy。

5、全自動(dòng)機(jī)器學(xué)習(xí)?——作為“人”還是別對(duì)自己的智商妄自菲薄吧

很多技術(shù)論壇以及國(guó)際學(xué)術(shù)會(huì)議上,都常常聽(tīng)到某些“看起來(lái)像是”磚家大神的,吐沫橫飛地講著“用DNN可以讓機(jī)器實(shí)現(xiàn)全自動(dòng)地學(xué)習(xí),并超越人類handcrafted的特征和方法”,抑或是言必稱DNN多么多么復(fù)雜,不把自己顯得高大上誓不罷休。其實(shí)在我看來(lái),DNN是非常非常簡(jiǎn)單的一個(gè)東西,它的外在的、看似復(fù)雜的樣子也只是由內(nèi)在的很多簡(jiǎn)單的組件加在一起所展現(xiàn)出來(lái)的表面的繁雜而已(在此暫不展開(kāi)說(shuō))。而且更重要的是,說(shuō)handcrafted或啟發(fā)式方法不好,那純粹是一種惡意的詆毀。

首先,DNN本身的結(jié)構(gòu)中,layer的數(shù)量、每個(gè)layer的node數(shù)、卷積層與全連接層的組合模式、卷積kernel的大小、max-pooling層的位置、輸出層的log-transform、輸入層的數(shù)據(jù)模式等等,無(wú)一不是handcrafted。除了結(jié)構(gòu)和參數(shù),就連訓(xùn)練方法中也融入了很多啟發(fā)式的設(shè)置,例如采用drop-out來(lái)緩解耦合與過(guò)擬合,又如神經(jīng)元之間以及相鄰layer之間的locality-influence方式來(lái)幫助增強(qiáng)稀疏化。

其次,除了DNN外,無(wú)論logistic regression(LR)還是SVM或是其它很多模型,都是人類智慧的結(jié)晶,是非常美的東西。例如LR中sigmod函數(shù)(也常被用于DNN)的平滑、對(duì)稱和雙邊飽和特性,又如SVM的較大間隔原理和VC維理論所刻畫(huà)的簡(jiǎn)單性原理,這些都是極其符合自然美學(xué)的設(shè)計(jì),也彰顯了大繁至簡(jiǎn)。其實(shí)將較大間隔與VC維的理念融入DNN,尋找結(jié)合點(diǎn),也是很值得研究的方向之一,直覺(jué)能夠?yàn)镈NN帶來(lái)再一次的不小的提升。

此外,還有值得一提的是,DNN的高層網(wǎng)絡(luò)中,某些神經(jīng)元的刺激響應(yīng)模式類似圖3a所示,對(duì)人臉和貓臉的輪廓會(huì)輸出極大響應(yīng)值。聯(lián)想PCA人臉識(shí)別方法中的eigenface,如圖3b所示,其實(shí)兩者存在很多相似的地方,這絕非偶然。實(shí)際上,DNN在某種意義上可以理解為一種級(jí)聯(lián)的變換或encoder,在information loss和對(duì)非線性的處理能力上增強(qiáng)了;而PCA是一種線性變換,對(duì)于數(shù)據(jù)的非線性特性和豐富的細(xì)節(jié),描述能力較差(information loss較大),所以出現(xiàn)圖3這樣的差別就不難理解了。在某種意義上可以把DNN看做“非線性化的PCA”。事實(shí)上,筆者思考和粗略提出了clustering-based PCA以及multi-stage residual-boosting PCA方法,感興趣的讀者可以交流并一起嘗試研究,或許可以揭示DNN與PCA的某些內(nèi)在關(guān)聯(lián)。

圖3:DNN人臉&貓臉(a)與PCA的eigenface(b)

行文至此,作為總結(jié),皆化作一句話:“面臨機(jī)器學(xué)習(xí)尤其是DNN被大肆吹捧的熱潮和浮華,諸君當(dāng)冷靜而理性視之,做到不卑不亢、靜水流深,方能真正登堂入室”。

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4326.html

相關(guān)文章

  • 警察必備工具!用空間融合卷積神經(jīng)網(wǎng)絡(luò)鑒別偽裝的「壞蛋」

    摘要:劍橋大學(xué)印度國(guó)家技術(shù)學(xué)院近日聯(lián)合發(fā)布了一篇論文,名為利用空間融合卷積神經(jīng)網(wǎng)絡(luò)通過(guò)面部關(guān)鍵點(diǎn)進(jìn)行偽裝人臉識(shí)別,該論文利用空間融合卷積神經(jīng)網(wǎng)絡(luò)為刑偵過(guò)程的人臉識(shí)別提供了有力的支持,我們來(lái)一窺究竟。 劍橋大學(xué)、印度國(guó)家技術(shù)學(xué)院近日聯(lián)合發(fā)布了一篇論文,名為《利用空間融合卷積神經(jīng)網(wǎng)絡(luò)通過(guò)面部關(guān)鍵點(diǎn)進(jìn)行偽裝人臉識(shí)別Disguised Face Identification (DFI) with Faci...

    anyway 評(píng)論0 收藏0
  • 計(jì)算機(jī)視覺(jué)中的深度學(xué)習(xí):技術(shù)、市場(chǎng)和5個(gè)你想不到的未來(lái)

    摘要:接下來(lái),介紹了使用深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)系統(tǒng)在農(nóng)業(yè)零售業(yè)服裝量身定制廣告制造等產(chǎn)業(yè)中的應(yīng)用和趨勢(shì),以及在這些產(chǎn)業(yè)中值得關(guān)注的企業(yè)。 嵌入式視覺(jué)聯(lián)盟主編Brian Dipert今天發(fā)布博文,介紹了2016年嵌入式視覺(jué)峰會(huì)(Embedded Vision Summit)中有關(guān)深度學(xué)習(xí)的內(nèi)容:谷歌工程師Pete Warden介紹如何利用TensorFlow框架,開(kāi)發(fā)為Google Translate...

    baukh789 評(píng)論0 收藏0
  • 吳恩達(dá)眼中的深度學(xué)習(xí)七雄

    摘要:的研究興趣涵蓋大多數(shù)深度學(xué)習(xí)主題,特別是生成模型以及機(jī)器學(xué)習(xí)的安全和隱私。與以及教授一起造就了年始的深度學(xué)習(xí)復(fù)興。目前他是僅存的幾個(gè)仍然全身心投入在學(xué)術(shù)界的深度學(xué)習(xí)教授之一。 Andrej Karpathy特斯拉 AI 主管Andrej Karpathy 擁有斯坦福大學(xué)計(jì)算機(jī)視覺(jué)博士學(xué)位,讀博期間師從現(xiàn)任 Google AI 首席科學(xué)家李飛飛,研究卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理上的應(yīng)...

    MingjunYang 評(píng)論0 收藏0
  • 深度學(xué)習(xí):推動(dòng)NLP領(lǐng)域發(fā)展的新引擎

    摘要:深度學(xué)習(xí)推動(dòng)領(lǐng)域發(fā)展的新引擎圖擁有記憶能力最早是提出用來(lái)解決圖像識(shí)別的問(wèn)題的一種深度神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)推動(dòng)領(lǐng)域發(fā)展的新引擎圖深度神經(jīng)網(wǎng)絡(luò)最近相關(guān)的改進(jìn)模型也被用于領(lǐng)域。 從2015年ACL會(huì)議的論文可以看出,目前NLP最流行的方法還是機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí),所以本文會(huì)從深度神經(jīng)網(wǎng)絡(luò)的角度分析目前NLP研究的熱點(diǎn)和未來(lái)的發(fā)展方向。我們主要關(guān)注Word Embedding、RNN/LSTM/CN...

    shiyang6017 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<