摘要:去年,微軟和谷歌展示了能比人類更準(zhǔn)確地識(shí)別圖像的系統(tǒng)。深度學(xué)習(xí)就是你可以使用關(guān)鍵字搜索存儲(chǔ)在谷歌的照片更多信息,能識(shí)別你照片中你朋友的原因。圖像識(shí)別中使用的神經(jīng)網(wǎng)絡(luò)類型,被稱為卷積網(wǎng),受到了動(dòng)物的視覺皮層方面研究的啟發(fā)。
圖像識(shí)別技術(shù)近來(lái)進(jìn)步飛速。去年,微軟和谷歌展示了能比人類更準(zhǔn)確地識(shí)別圖像的系統(tǒng)。
這些進(jìn)步得益于一個(gè)叫做深度學(xué)習(xí)的技術(shù),它涉及將數(shù)據(jù)通過(guò)模擬神經(jīng)元的網(wǎng)絡(luò),以培養(yǎng)該網(wǎng)絡(luò)在未來(lái)過(guò)濾數(shù)據(jù)(更多信息見“Teaching Machines to Understand Us”)。深度學(xué)習(xí)就是你可以使用關(guān)鍵字搜索存儲(chǔ)在谷歌的照片(更多信息),F(xiàn)acebook 能識(shí)別你照片中你朋友的原因。 在圖像識(shí)別上使用深度學(xué)習(xí)也使得機(jī)器人和自動(dòng)駕駛汽車更有可行性,它甚至可以徹底改變醫(yī)學(xué)(更多信息)。
圖像識(shí)別技術(shù)的能力和靈活性來(lái)自于, 當(dāng)人工神經(jīng)網(wǎng)絡(luò)收到很多圖像和圖像類別的信息時(shí),它可以自動(dòng)計(jì)算出來(lái)重要的視覺特征。在深度學(xué)習(xí)中使用的神經(jīng)網(wǎng)絡(luò)被布置成不同的層,數(shù)據(jù)一層一層根據(jù)順序通過(guò)。在訓(xùn)練過(guò)程中,在神經(jīng)網(wǎng)絡(luò)中的不同的層成為專門識(shí)別不同類型的視覺特征的網(wǎng)絡(luò)層。圖像識(shí)別中使用的神經(jīng)網(wǎng)絡(luò)類型,被稱為卷積網(wǎng),受到了動(dòng)物的視覺皮層方面研究的啟發(fā)。
“這些神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)的計(jì)算機(jī)視覺方法,是一個(gè)巨大的飛躍,因?yàn)樗鼈冎苯訌臄?shù)據(jù)中得出結(jié)果?!瘪R修·蔡勒,Clarifai(Clarifai 提供了包括 buzzfeed 在內(nèi)的公司組織和搜索照片和視頻的服務(wù)) 的 CEO 說(shuō)。程序員們?cè)?jīng)需要寫出尋找視覺特征所需的數(shù)學(xué)程序,然而這些程序并不能創(chuàng)造出很多有用的產(chǎn)品。
當(dāng)蔡勒還是一個(gè)研究生的時(shí)候, 他在紐約大學(xué)與羅博·宏泰合作開發(fā)了一種可視化神經(jīng)網(wǎng)絡(luò)運(yùn)作的方法。在這個(gè)鏈接中的幻燈片中的圖像將帶你來(lái)到這個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)的內(nèi)部,這個(gè)用了130萬(wàn)張照片訓(xùn)練過(guò),打敗了人類的圖像識(shí)別神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)識(shí)別了 1000 個(gè)截然不同的物件,包括蚊帳和蚊子,而幻燈片上顯示了每個(gè)圖像中最強(qiáng)烈的激活神經(jīng)元網(wǎng)絡(luò)的一個(gè)網(wǎng)絡(luò)層的視覺特征。
原文鏈接:https://www.technologyreview.com/s/60111...
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19607.html
摘要:需要識(shí)別的驗(yàn)證碼圖像,其中包含個(gè)字符數(shù)字字母驗(yàn)證碼圖片來(lái)源思路灰度化將圖像轉(zhuǎn)為灰度圖像,即一個(gè)像素只有一種色階有種不同灰度,值為表示像素最黑,值為表示像素最白。 需要識(shí)別的驗(yàn)證碼圖像,其中包含 4 個(gè)字符(數(shù)字字母) showImg(https://segmentfault.com/img/remote/1460000016055387); 驗(yàn)證碼圖片來(lái)源:http://my.cnki...
摘要:通過(guò)生成高質(zhì)量的行人圖像,將其與行人重識(shí)別模型融合,同時(shí)提升行人生成的質(zhì)量和行人重識(shí)別的精度。若使用這些低質(zhì)量的行人生成圖像來(lái)訓(xùn)練行人重識(shí)別模型,會(huì)引入與原始數(shù)據(jù)集之間的差異。首次提出了利用生成的圖像輔助行人重識(shí)別的特征學(xué)習(xí)。 前幾天英偉達(dá)開源了DG-Net的源碼。讓我們來(lái)回顧一下這篇CVPR19 Oral的論文。 論文是英偉達(dá)(NVIDIA), 悉尼科技大學(xué)(UTS), 澳大利亞國(guó)立...
閱讀 2800·2021-09-01 10:30
閱讀 1690·2019-08-30 15:52
閱讀 979·2019-08-29 18:40
閱讀 1134·2019-08-28 18:30
閱讀 2405·2019-08-23 17:19
閱讀 1333·2019-08-23 16:25
閱讀 2711·2019-08-23 16:18
閱讀 2988·2019-08-23 13:53