摘要:下面介紹這兩種方法正則化正則化通過在損失函數(shù)上加上正則化損失來實現(xiàn),根據(jù)正則化損失定義的不同,正則化又能分為好幾種。正則化正則化是另一個常用的正則化方法,即對于網(wǎng)絡中每個權(quán)重值,向損失函數(shù)增加一個作為其正則化懲罰,其中是正則化強度。
??????????????????????/--->【DL-CV】更高級的參數(shù)更新/優(yōu)化(一)
【DL-CV】批量歸一化(BN算法)<前篇---后篇>
??????????????????????/--->【DL-CV】更高級的參數(shù)更新/優(yōu)化(二)
在損失函數(shù)那篇文章中,我們引入了正則化并簡單介紹了L2正則化。其作用是防止網(wǎng)絡過擬合,提高網(wǎng)絡的泛化能力。本文將介紹一些防止過擬合的方法,
過擬合所謂過擬合,就是網(wǎng)絡對訓練集極度適應,以至于訓練出來的權(quán)重幾乎只服務于訓練集,導致在訓練好的網(wǎng)絡在跑訓練集的時候表現(xiàn)得很好(準確率高),而跑測試集或其他數(shù)據(jù)表現(xiàn)得很差。過擬合的出現(xiàn)將降低網(wǎng)絡的泛化能力,是非常糟糕的事情。
正則化是抑制網(wǎng)絡過擬合,提高網(wǎng)絡泛化能力的一種方法。Dropout是其替代品,也能防止過擬合提高泛化能力。下面介紹這兩種方法
正則化正則化通過在損失函數(shù)上加上正則化損失來實現(xiàn),根據(jù)正則化損失定義的不同,正則化又能分為好幾種。
L2正則化$$R(W)=sum_k sum_l W^2_{k,l}$$
L2正則化是是最常用的正則化方法,即對于網(wǎng)絡中的每個權(quán)重值$w$,向損失函數(shù)中增加一個$frac{1}{2}lambda w^2$作為正則化懲罰,其中$lambda$是正則化強度;乘了個$frac{1}{2}$是很常見的事,因為這樣式子關(guān)于 $w$ 梯度就是 $lambda w$ 而不是 $2lambda w$ 了。
L2正則化可以直觀地理解為對于大數(shù)值的權(quán)重向量進行嚴厲懲罰(平方懲罰),驅(qū)使權(quán)重往更加均勻的方向發(fā)展而不是某些權(quán)重絕對值很大某些權(quán)重絕對值很小,這樣能提高網(wǎng)絡的泛化能力。
L1正則化$$R(W)=sum_k sum_l| W_{k,l}|$$
L1正則化是另一個常用的正則化方法,即對于網(wǎng)絡中每個權(quán)重值$w$,向損失函數(shù)增加一個$lambda|w|$作為其正則化懲罰,其中$lambda$是正則化強度。
L1正則化相對于L2正則化對大數(shù)值權(quán)重的懲罰沒那么重(沒有平方懲罰),他會讓權(quán)值在最訓練的過程中非常接近零(L2則是讓權(quán)重變成分散的小數(shù)值)。在實踐中,如果不是特別關(guān)注某些明確的特征選擇,一般說來L2正則化都會比L1正則化效果好
L1正則化也可以和L2正則化組合使用變成$lambda_1|w|+lambda_2w^2$,這也被稱作Elastic net regularizaton。不過沒這么常用就是了
隨機失活(Dropout)Dropout堪稱對付過擬合的超級武器,其使用簡單,效果強勁。我們先來介紹dropout的使用:
在訓練的時候,Dropout的實現(xiàn)方法是讓隱層神經(jīng)元以超參數(shù)$1-p$的概率被設置為0,$p$的概率維持激活值(隨機失活,加入隨機性)
在預測時不使用隨機失活,但是每層的輸出要乘以$p$(因為訓練時每層只有有p的激活值被維持,為維持同樣的輸出,預測時每層激活值要乘以p,抵消隨機性)
Dropout可以理解為,在每次訓練時,隨機抽取一部分神經(jīng)元組成一個子網(wǎng)絡,基于輸入數(shù)據(jù)只更新子網(wǎng)絡的參數(shù)(子網(wǎng)絡并不相互獨立,因為他們共享著參數(shù))。最后在測試時不使用隨機失活,可以理解為對子網(wǎng)絡們做了模型集成,以此來計算出一個平均的預測。
p = 0.5 # 激活神經(jīng)元的概率. p值更高 = 隨機失活更弱 def train_step(X): """ X中是輸入數(shù)據(jù) """ # 3層neural network的前向傳播 H1 = np.maximum(0, np.dot(X, W1 ) + b1) U1 = np.random.rand(*H1.shape) < p # 第一個隨機失活遮罩 H1 *= U1 # drop! H2 = np.maximum(0, np.dot(H1, W2) + b2) U2 = np.random.rand(*H2.shape) < p # 第二個隨機失活遮罩 H2 *= U2 # drop! out = np.dot(H2, W3) + b3 # 反向傳播略 # 參數(shù)更新略 def predict(X): H1 = np.maximum(0, np.dot(W1, X) + b1) * p # 注意:激活數(shù)據(jù)要乘以p H2 = np.maximum(0, np.dot(W2, H1) + b2) * p # 注意:激活數(shù)據(jù)要乘以p out = np.dot(W3, H2) + b3Dropout的理解
一種理解是Dropout避免了特征間的相互適應。如上圖,假如網(wǎng)絡中的神經(jīng)元學到了如上特征,“有耳朵”,“有尾巴”,“毛毛的”等等特征,這些特征組合起來判斷是否是貓。正常來說(作為人來說),特征越多越好,但在這種情況下(深度學習),完全依靠這些特征將可能導致過擬合的發(fā)生。使用Dropout后,網(wǎng)絡的部分連接將被中斷,網(wǎng)絡不能依賴這些特征的組合來給出結(jié)果,而是只能使用零散的特征來給出判斷,這在某種程度上防止了過擬合,提高了網(wǎng)路的泛化能力。
更多解釋和理解可參考此文
推薦:反向隨機失活(Inverted Dropout)上面提到的Dropout方法在測試時每層激活值是要乘$p$的,額外的乘法操作會降低測試時的效率。所以更多時候我們會使用一個叫Inverted Dropout 的方法,他把隨機性抵消的操作從預測階段搬到了訓練階段:在訓練階段的Dropout操作后,我們對神經(jīng)元的激活值除以$p$來抵消隨機性。這樣預測階段會更高效。
p = 0.5 # 激活神經(jīng)元的概率. p值更高 = 隨機失活更弱 def train_step(X): """ X中是輸入數(shù)據(jù) """ # 3層neural network的前向傳播 H1 = np.maximum(0, np.dot(X, W1 ) + b1) U1 = (np.random.rand(*H1.shape) < p) / p # 第一個隨機失活遮罩,/p H1 *= U1 # drop! H2 = np.maximum(0, np.dot(H1, W2) + b2) U2 = (np.random.rand(*H2.shape) < p) / p # 第二個隨機失活遮罩 H2 *= U2 # drop! out = np.dot(H2, W3) + b3 # 反向傳播略 # 參數(shù)更新略 def predict(X): H1 = np.maximum(0, np.dot(X, W1) + b1) # 免去*p H2 = np.maximum(0, np.dot(H1, W2) + b2) out = np.dot(H2, W3) + b3
除了將神經(jīng)元隨機置0的Dropout外,還有將權(quán)重值隨機置0的DropConnect,興趣自查
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19805.html
摘要:下面介紹這兩種方法正則化正則化通過在損失函數(shù)上加上正則化損失來實現(xiàn),根據(jù)正則化損失定義的不同,正則化又能分為好幾種。正則化正則化是另一個常用的正則化方法,即對于網(wǎng)絡中每個權(quán)重值,向損失函數(shù)增加一個作為其正則化懲罰,其中是正則化強度。 ??????????????????????/--->【DL-CV】更高級的參數(shù)更新/優(yōu)化(一)【DL-CV】批量歸一化(BN算法)???????????...
摘要:為了解決這個問題出現(xiàn)了批量歸一化的算法,他對每一層的輸入進行歸一化,保證每層的輸入數(shù)據(jù)分布是穩(wěn)定的,從而加速訓練批量歸一化歸一化批,一批樣本輸入,,個樣本與激活函數(shù)層卷積層全連接層池化層一樣,批量歸一化也屬于網(wǎng)絡的一層,簡稱。 【DL-CV】數(shù)據(jù)預處理&權(quán)重初始化【DL-CV】正則化,Dropout 先來交代一下背景:在網(wǎng)絡訓練的過程中,參數(shù)的更新會導致網(wǎng)絡的各層輸入數(shù)據(jù)的分布不斷變化...
閱讀 2237·2021-09-24 10:31
閱讀 3887·2021-09-22 15:16
閱讀 3408·2021-09-22 10:02
閱讀 1024·2021-09-22 10:02
閱讀 1838·2021-09-08 09:36
閱讀 1982·2019-08-30 14:18
閱讀 616·2019-08-30 10:51
閱讀 1877·2019-08-29 11:08