摘要:雖說都是些量少易懂的知識點(diǎn),卻主角般地貫穿著整個學(xué)習(xí)過程,而且作為從小白到學(xué)習(xí)者思維轉(zhuǎn)換的橋梁,其必要性是肯定的。所以對于從未接觸過深度學(xué)習(xí)的小白,強(qiáng)烈推薦了解,非小白可跳過圖像分類首先來了解在計算機(jī)視覺領(lǐng)域上的圖像指的是什么。
【DL-CV】【深度學(xué)習(xí)-計算機(jī)視覺】系列簡介及入門推薦<前篇----后篇>【DL-CV】線性分類器
在初次進(jìn)入坑,接觸高深的算法環(huán)節(jié)之前,有必要對計算機(jī)視覺的目標(biāo)和實(shí)現(xiàn)有一個大概的了解。雖說都是些量少易懂的知識點(diǎn),卻主角般地貫穿著整個學(xué)習(xí)過程,而且作為從小白到學(xué)習(xí)者思維轉(zhuǎn)換的橋梁,其必要性是肯定的。所以對于從未接觸過深度學(xué)習(xí)的小白,強(qiáng)烈推薦了解,非小白可跳過
圖像分類首先來了解在計算機(jī)視覺領(lǐng)域上的圖像指的是什么?!獔D像由像素組成,每個像素通過三原色(RGB)的明暗組合形成一種顏色,RGB各有256級亮度用數(shù)字0~255表示。最終圖像就是一個由數(shù)字組成的三維數(shù)組Rw*h*c,三個維度分別是寬、高、顏色通道。
所謂的圖像分類問題,則是在已有固定的分類標(biāo)簽集合中找出一個標(biāo)簽分配給輸入的圖像。這是計算機(jī)視覺領(lǐng)域的核心問題之一,并且有著各種各樣的實(shí)際應(yīng)用。計算機(jī)視覺領(lǐng)域中很多看似不同的問題(比如物體檢測和分割),都可以被歸結(jié)為圖像分類問題,許多算法和原理都是為解決此問題服務(wù)的。
圖像分類對人來說是簡單至極的,但對于本質(zhì)上只會算數(shù)的計算機(jī)來說,問題變得復(fù)雜起來?!鞍汛韴D像的一堆數(shù)字通過數(shù)學(xué)運(yùn)算變成一個標(biāo)簽(通過計算獲得視覺)” 光是這個過程就看似無法理解了,但實(shí)際上這是可行的,不少現(xiàn)有的模型能獲得不錯的結(jié)果,原理與實(shí)現(xiàn)之后會介紹,現(xiàn)在我們來談?wù)動嬎銠C(jī)視覺算法在圖像識別方面遇到的一些困難
視角變化(Viewpoint variation):同一個物體,攝像機(jī)可以從多個角度來展現(xiàn)。
大小變化(Scale variation):物體可視的大小通常是會變化的。
形變(Deformation):很多東西的形狀并非一成不變,會有很大變化。
遮擋(Occlusion):目標(biāo)物體可能被擋住。有時候只有物體的一小部分是可見的。
光照條件(Illumination conditions):在像素層面上,光照的影響非常大。
背景干擾(Background clutter):物體可能混入背景之中,使之難以被辨認(rèn)。
類內(nèi)差異(Intra-class variation):同一類物體的個體之間外形差異可能很大。
這些在人看來不太影響分類的變化,在計算機(jī)看來簡直是天差地別,每一種變化都讓輸入的數(shù)字?jǐn)?shù)組發(fā)生巨大變化。如何提高算法的健壯性,增強(qiáng)噪音抵抗力,在維持分類結(jié)論穩(wěn)定的同時,保持對類間差異足夠敏感,這些都是算法設(shè)計者要考慮的問題
數(shù)據(jù)驅(qū)動方法關(guān)于詳細(xì)的解釋,可以參考這篇文章。這里只簡單的說明一下,由于類別的多樣性與同類的相似性,在算法中逐一指定參數(shù)實(shí)現(xiàn)某個類的區(qū)分是很不現(xiàn)實(shí)的(先不考慮能不能直接找出這堆參數(shù)),所以目前流行的算法更類似于人類學(xué)習(xí)的過程——給計算機(jī)很多已分類好的數(shù)據(jù),然后實(shí)現(xiàn)學(xué)習(xí)算法,讓計算機(jī)自己調(diào)整這堆參數(shù),從而學(xué)習(xí)到每個類的區(qū)分。這種方法,就是數(shù)據(jù)驅(qū)動方法。
以此為基礎(chǔ),整個圖像分類過程可以總結(jié)為三步:
輸入: 輸入是包含N個圖像(3維數(shù)組)的集合,每個圖像的標(biāo)簽是K種分類標(biāo)簽中的一種。這個集合稱為訓(xùn)練集。
學(xué)習(xí): 用訓(xùn)練集來學(xué)習(xí)每個類到底長什么樣。一般該步驟叫做訓(xùn)練分類器或者學(xué)習(xí)一個模型。
評價: 讓分類器來預(yù)測它未曾見過的圖像(測試集)的分類標(biāo)簽,并以此來評價分類器的好壞。如果分類器預(yù)測的分類標(biāo)簽和圖像真正的分類標(biāo)簽一致,那很棒。
關(guān)于數(shù)據(jù)來源,cs231n課程使用的是圖像分類數(shù)據(jù)集CIFAR-10,這個數(shù)據(jù)集包含了60000張32X32的小圖像。每張圖像都有10種分類標(biāo)簽中的一種。這60000張圖像被分為包含50000張圖像的訓(xùn)練集和包含10000張圖像的測試集。本系列也將基于此數(shù)據(jù)進(jìn)行實(shí)踐。
超參數(shù)及其調(diào)優(yōu)在構(gòu)造分類器(算法)的時候,某些參數(shù)和函數(shù)的是必須要人為選擇的,但是關(guān)于選擇哪個才能獲得最佳效果,不實(shí)踐的話很難直接給出答案。類似這樣的選擇,就叫做超參數(shù)。這樣一說,調(diào)優(yōu)的方法就很明了了,把可能的選擇都試一遍,選擇準(zhǔn)確率最高的一個就行了(通常作圖分析取峰值)。
但要注意的是千萬不能用測試集來進(jìn)行調(diào)優(yōu),因?yàn)檫@會帶來對測試集過擬合的風(fēng)險(用測試集訓(xùn)練出來的分類器跑測試集當(dāng)然表現(xiàn)好,都熟悉了
)。正確的做法是從訓(xùn)練集中分一部分(通常10%~50%)作為驗(yàn)證集用于調(diào)優(yōu),剩下的再作為訓(xùn)練集用于學(xué)習(xí)。
測試數(shù)據(jù)集只使用一次,即在訓(xùn)練完成后評價最終的模型時使用。交叉驗(yàn)證
有時候訓(xùn)練集數(shù)量較少,分得的驗(yàn)證集更少,不利于超參數(shù)的調(diào)優(yōu),這時會用交叉驗(yàn)證的方法,盡可能榨干整個訓(xùn)練集。
原理是把訓(xùn)練集分成N份(通常3,5,10),循環(huán)著取其中一份作為驗(yàn)證集,其他作為訓(xùn)練集,共跑N次。對于每個超參數(shù)的N個結(jié)果取它們的平均值作為該參數(shù)的表現(xiàn),所有平均值畫線連接取峰值對應(yīng)的參數(shù)即可。
通常在深度學(xué)習(xí)(大型模型)中不會用交叉驗(yàn)證,因?yàn)檫@會使計算量翻N倍。但對于小型數(shù)據(jù)集值得一試。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/42201.html
摘要:雖說都是些量少易懂的知識點(diǎn),卻主角般地貫穿著整個學(xué)習(xí)過程,而且作為從小白到學(xué)習(xí)者思維轉(zhuǎn)換的橋梁,其必要性是肯定的。所以對于從未接觸過深度學(xué)習(xí)的小白,強(qiáng)烈推薦了解,非小白可跳過圖像分類首先來了解在計算機(jī)視覺領(lǐng)域上的圖像指的是什么。 【DL-CV】【深度學(xué)習(xí)-計算機(jī)視覺】系列簡介及入門推薦【DL-CV】線性分類器 在初次進(jìn)入坑,接觸高深的算法環(huán)節(jié)之前,有必要對計算機(jī)視覺的目標(biāo)和實(shí)現(xiàn)有一個大...
摘要:最后還是強(qiáng)調(diào)一下自學(xué)的重要性,深度學(xué)習(xí)及其分支都是一個大坑,知識量巨大,希望大家充分利用搜索引擎對已學(xué)知識點(diǎn)進(jìn)行補(bǔ)充或解疑,觀摩大佬們的代碼,不要滿足于這小小的系列 【DL-CV】計算機(jī)視覺前置了解 showImg(https://segmentfault.com/img/bVbeOwJ?w=1464&h=1000); 閑了就要找事做,不能被四公主和NS誘惑。所以在搞完了爬蟲進(jìn)入假期時...
閱讀 1922·2021-11-09 09:46
閱讀 2496·2019-08-30 15:52
閱讀 2461·2019-08-30 15:47
閱讀 1327·2019-08-29 17:11
閱讀 1752·2019-08-29 15:24
閱讀 3511·2019-08-29 14:02
閱讀 2450·2019-08-29 13:27
閱讀 1212·2019-08-29 12:32