摘要:而基于梯度更新也意味著面臨一些挑戰(zhàn)選擇恰當(dāng)?shù)某跏紝W(xué)習(xí)率很困難,學(xué)習(xí)率太大會妨礙收斂,導(dǎo)致?lián)p失函數(shù)在最小值附近振蕩甚至偏離最小值非凸的損失函數(shù)優(yōu)化過程存在大量的局部最優(yōu)解或鞍點(diǎn)參數(shù)更新采用相同的學(xué)習(xí)率。
感謝閱讀「美圖數(shù)據(jù)技術(shù)團(tuán)隊」的原創(chuàng)文章,關(guān)注我們持續(xù)獲取美圖最新數(shù)據(jù)技術(shù)動態(tài)。
平時我們說的訓(xùn)練神經(jīng)網(wǎng)絡(luò)就是最小化損失函數(shù)的過程,損失函數(shù)的值衡量了模型在給定數(shù)據(jù)集下的表現(xiàn)(擬合)能力。
損失函數(shù) J 如上圖所示,B 點(diǎn)為函數(shù)最低點(diǎn),設(shè) A 點(diǎn)為初始值,那么優(yōu)化器的作用就是指引初始值 A 點(diǎn)走向最低點(diǎn) B 點(diǎn),那么如何讓這個過程執(zhí)行的更加迅速呢?
梯度下降了解一下!
位于三維空間里的任意一個點(diǎn)都可以找到與之相切的平面,在高維的情況下也能找到超平面與其相切。那么在相切平面上的任意一個點(diǎn)都有多種方向,但只有一個方向能使該函數(shù)值上升最快,這個方向我們稱之為梯度方向,而這個梯度方向的反方向就是函數(shù)值下降最快的方向,這就是梯度下降的過程。
基于以上概念我們進(jìn)一步了解批量梯度更新 BGD,顧名思義,它就是一次性把所有樣本同時計算之后得到梯度值,然后更新參數(shù)。這種方法十分簡便,它對凸函數(shù)可以收斂到全局最優(yōu)值,對于非凸函數(shù)則收斂到局部最優(yōu)值。與此同時它缺點(diǎn)顯而易見:在大數(shù)據(jù)量下內(nèi)存占用巨大、計算時間久,并且無法進(jìn)行在線更新。
面對 BGD 的瓶頸 SGD 應(yīng)運(yùn)而生,它每次只更新一個樣本,相對比于 BGD ,它的收斂速度更快并且可以在線更新,有機(jī)會跳出局部最優(yōu)。但 SGD 無法利用矩陣操作加速計算過程,考慮到上述兩種方法的優(yōu)缺點(diǎn),就有了小批量梯度下降算法(MBGD),每次只選取固定小批量數(shù)據(jù)進(jìn)行梯度更新。
而基于梯度更新也意味著面臨一些挑戰(zhàn):
選擇恰當(dāng)?shù)某跏紝W(xué)習(xí)率很困難,學(xué)習(xí)率太大會妨礙收斂,導(dǎo)致?lián)p失函數(shù)在最小值附近振蕩甚至偏離最小值;
非凸的損失函數(shù)優(yōu)化過程存在大量的局部最優(yōu)解或鞍點(diǎn);
參數(shù)更新采用相同的學(xué)習(xí)率。
針對上述挑戰(zhàn),接下來為大家列舉一些優(yōu)化算法。
如果我們把梯度下降法當(dāng)作小球從山坡到山谷的一個過程,那么在小球滾動時是帶有一定的初速度,在下落過程,小球積累的動能越來越大,小球的速度也會越滾越大,更快的奔向谷底,受此啟發(fā)就有了動量法 Momentum。
如上公式所示,動量法在當(dāng)前梯度值的基礎(chǔ)上再加上一次的梯度值與衰減率
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19816.html
摘要:學(xué)習(xí)速率的取值問題當(dāng)取值較大時,即梯度下降迭代的步長較大,梯度下降迭代過程較快。在處的次梯度集稱為微分集并表示為。在隨機(jī)梯度下降中,我們不要求更新方向完全基于梯度。相反,我們允許方向為隨機(jī)向量,并要求其期望值為當(dāng)前向量處函數(shù)的次梯度。 1,概述 1.1,梯度下降法 假定給定函數(shù):?,求解...
摘要:在這堂課中,學(xué)生將可以學(xué)習(xí)到深度學(xué)習(xí)的基礎(chǔ),學(xué)會構(gòu)建神經(jīng)網(wǎng)絡(luò),包括和等。課程中也會有很多實(shí)操項目,幫助學(xué)生更好地應(yīng)用自己學(xué)到的深度學(xué)習(xí)技術(shù),解決真實(shí)世界問題。 深度學(xué)習(xí)入門首推課程就是吳恩達(dá)的深度學(xué)習(xí)專項課程系列的 5 門課。該專項課程最大的特色就是內(nèi)容全面、通俗易懂并配備了豐富的實(shí)戰(zhàn)項目。今天,給大家推薦一份關(guān)于該專項課程的核心筆記!這份筆記只能用兩個字形容:全面! showImg(...
摘要:近來在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等深度模型在各種復(fù)雜的任務(wù)中表現(xiàn)十分優(yōu)秀。機(jī)器學(xué)習(xí)中最常用的正則化方法是對權(quán)重施加范數(shù)約束。 近來在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等深度模型在各種復(fù)雜的任務(wù)中表現(xiàn)十分優(yōu)秀。例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)這種由生物啟發(fā)而誕生的網(wǎng)絡(luò),它基于數(shù)學(xué)的卷積運(yùn)算而能檢測大量的圖像特征,因此可用于解決多種圖像視覺應(yīng)用、目標(biāo)分類和語音識別等問題。但是,深層網(wǎng)絡(luò)...
閱讀 570·2023-04-26 02:59
閱讀 700·2023-04-25 16:02
閱讀 2174·2021-08-05 09:55
閱讀 3590·2019-08-30 15:55
閱讀 4682·2019-08-30 15:44
閱讀 1811·2019-08-30 13:02
閱讀 2209·2019-08-29 16:57
閱讀 2297·2019-08-26 13:35