摘要:出現(xiàn)方差是正常的,但方差過高表明模型無法將其預(yù)測結(jié)果泛化到從中抽取訓(xùn)練樣本的較大母體。機(jī)器學(xué)習(xí)中的學(xué)習(xí)曲線是一種可視化圖形,能根據(jù)一系列訓(xùn)練實(shí)例中的訓(xùn)練和測試數(shù)據(jù)比較模型的指標(biāo)性能。
欠擬合(通常代表高偏差)
精度
如前所述如果模型具有足夠的數(shù)據(jù),但因不夠復(fù)雜而無法捕捉基本關(guān)系,則會(huì)出現(xiàn)偏差。這樣一來,模型一直會(huì)系統(tǒng)地錯(cuò)誤表示數(shù)據(jù),從而導(dǎo)致預(yù)測精度低。這種現(xiàn)象叫做欠擬合(underfitting)。
簡單來說,如果模型不適當(dāng),就會(huì)出現(xiàn)偏差。舉個(gè)例子:如果對象是按顏色和形狀分類的,但模型只能按顏色來區(qū)分對象和將對象分類(模型過度簡化),因而一直會(huì)錯(cuò)誤地分類對象。
或者,我們可能有本質(zhì)上是多項(xiàng)式的連續(xù)數(shù)據(jù),但模型只能表示線性關(guān)系。在此情況下,我們向模型提供多少數(shù)據(jù)并不重要,因?yàn)槟P透緹o法表示其中的基本關(guān)系,我們需要更復(fù)雜的模型。
過擬合(通常代表高方差)
過擬合又可以稱之為維度災(zāi)難。
機(jī)器學(xué)習(xí)中的維度災(zāi)難 -
紅色石頭的專欄 - CSDN博客 https://blog.csdn.net/red_stone1/article/details/71692444
過少的數(shù)據(jù)樣本與有效特征,過高的維度,會(huì)導(dǎo)致模型學(xué)到噪聲和不必要的無效特征,這個(gè)概念叫做過擬合,是維度災(zāi)難的一個(gè)直接后果。
在訓(xùn)練模型時(shí),通常使用來自較大母體(訓(xùn)練集)的有限數(shù)量樣本。如果利用選擇的數(shù)據(jù)子集反復(fù)訓(xùn)練模型,可以預(yù)料它的預(yù)測結(jié)果會(huì)因提供給它的具體樣本而異。在這里,方差(variance)用來測量預(yù)測結(jié)果對于任何給定的測試樣本會(huì)出現(xiàn)多大的變化。
出現(xiàn)方差是正常的,但方差過高表明模型無法將其預(yù)測結(jié)果泛化到從中抽取訓(xùn)練樣本的較大母體。對訓(xùn)練集高度敏感也稱為過擬合(overfitting),而且通常出現(xiàn)在模型過于復(fù)雜或我們沒有足夠的數(shù)據(jù)支持它時(shí)。
通常,可以利用更多數(shù)據(jù)進(jìn)行訓(xùn)練,以降低模型預(yù)測結(jié)果的方差并提高精度。
如何改進(jìn)模型的有效性
我們可以看到,在給定一組固定數(shù)據(jù)時(shí),模型不能過于簡單或復(fù)雜。如果過于簡單,模型無法了解數(shù)據(jù)并會(huì)錯(cuò)誤地表示數(shù)據(jù)。但是,如果建立非常復(fù)雜的模型,則需要更多數(shù)據(jù)才能了解基本關(guān)系,否則十分常見的是,模型會(huì)推斷出在數(shù)據(jù)中實(shí)際上并不存在的關(guān)系。
關(guān)鍵在于,通過找出正確的模型復(fù)雜度來找到最大限度降低偏差和方差的最有效點(diǎn)。當(dāng)然,數(shù)據(jù)越多,模型隨著時(shí)間推移會(huì)變得越好。 ?
要詳細(xì)了解偏差和方差,建議閱讀 Scott Fortmann-Roe
撰寫的這篇文章。http://scott.fortmann-roe.com...
除了選定用來訓(xùn)練模型的數(shù)據(jù)子集外,您使用的哪些來自給定數(shù)據(jù)集的特征也會(huì)顯著影響模型的偏差和方差。
聊一下模型訓(xùn)練過程中的學(xué)習(xí)曲線
我們根據(jù)模型通過可視化圖形從數(shù)據(jù)中學(xué)習(xí)的能力來探討偏差與方差之間的關(guān)系。機(jī)器學(xué)習(xí)中的學(xué)習(xí)曲線是一種可視化圖形,能根據(jù)一系列訓(xùn)練實(shí)例中的訓(xùn)練和測試數(shù)據(jù)比較模型的指標(biāo)性能。在查看數(shù)據(jù)與誤差之間的關(guān)系時(shí),我們通常會(huì)看到,隨著訓(xùn)練點(diǎn)數(shù)量的增加,誤差會(huì)趨于下降。由于我們嘗試構(gòu)建從經(jīng)驗(yàn)中學(xué)習(xí)的模型,因此這很有意義。我們將訓(xùn)練集和測試集分隔開,以便更好地了解能否將模型泛化到未見過的數(shù)據(jù)而不是擬合到剛見過的數(shù)據(jù)。在學(xué)習(xí)曲線中,當(dāng)訓(xùn)練曲線和測試曲線均達(dá)到穩(wěn)定階段,并且兩者之間的差距不再變化時(shí),則可以確認(rèn)模型已盡其所能地了解數(shù)據(jù)。
偏差
在訓(xùn)練誤差和測試誤差收斂并且相當(dāng)高時(shí),這實(shí)質(zhì)上表示模型具有偏差。無論我們向其提供多少數(shù)據(jù),模型都無法表示基本關(guān)系,因而出現(xiàn)系統(tǒng)性的高誤差。
方差
如果訓(xùn)練誤差與測試誤差之間的差距很大,這實(shí)質(zhì)上表示模型具有高方差。與偏差模型不同的是,如果有更多可供學(xué)習(xí)的數(shù)據(jù),或者能簡化表示數(shù)據(jù)的最重要特征的模型,則通??梢愿倪M(jìn)具有方差的模型。
理想的學(xué)習(xí)曲線
模型的最終目標(biāo)是,誤差小并能很好地泛化到未見過的數(shù)據(jù)(測試數(shù)據(jù))。如果測試曲線和訓(xùn)練曲線均收斂,并且誤差極低,就能看到這種模型。這種模型能根據(jù)未見過的數(shù)據(jù)非常準(zhǔn)確地進(jìn)行預(yù)測。
說一下你理解的信息增益(Information gain)
熵:表示變量的不確定性。
條件熵:在一個(gè)條件下,變量的不確定性。
信息增益:熵 - 條件熵
在一個(gè)條件下,信息不確定性減少的程度!
例子:原來明天下雨例如信息熵是2,條件熵是0.01(因?yàn)槿绻顷幪炀拖掠甑母怕屎艽?,信息就少了),這樣相減后為1.99,在獲得陰天這個(gè)信息后,下雨信息不確定性減少了1.99!是很多的!所以信息增益大!也就是說,陰天這個(gè)信息對下雨來說是很重要的!
所以在特征選擇的時(shí)候常常用信息增益,如果IG(信息增益大)的話那么這個(gè)特征對于分類來說很關(guān)鍵~~
決策樹就是這樣來找特征的。
說一下分類和回歸的區(qū)別?
兩者追到本質(zhì)是一樣。
分類模型和回歸模型本質(zhì)一樣,分類模型可將回歸模型的輸出離散化,回歸模型也可將分類模型的輸出連續(xù)化,舉幾個(gè)例子:
Logistic Regression 和 Linear Regression:
Linear Regression: 輸出一個(gè)標(biāo)量
wx+b,這個(gè)值是連續(xù)值,所以可以用來處理回歸問題
Logistic Regression:把上面的 wx+b 通過 sigmoid
函數(shù)映射到(0,1)上,并劃分一個(gè)閾值,大于閾值的分為一類,小于等于分為另一類,可以用來處理二分類問題
更進(jìn)一步:對于N分類問題,則是先得到N組w值不同的
wx+b,然后歸一化,比如用 softmax
函數(shù),最后變成N個(gè)類上的概率,可以處理多分類問題
Support Vector Regression 和 Support Vector Machine:
SVR:輸出
wx+b,即某個(gè)樣本點(diǎn)到分類面的距離,是連續(xù)值,所以是回歸模型
SVM:把這個(gè)距離用 sign(·)
函數(shù)作用,距離為正(在超平面一側(cè))的樣本點(diǎn)是一類,為負(fù)的是另一類,所以是分類模型
Naive Bayes?用于分類 和 回歸:
用于分類:y是離散的類別,所以得到離散的 p(y|x),給定 x
,輸出每個(gè)類上的概率
用于回歸:對上面離散的 p(y|x)求期望
ΣyP(y|x),就得到連續(xù)值。但因?yàn)榇藭r(shí)y本身是連續(xù)的值,所以最地道的做法是,得到連續(xù)的概率密度函數(shù)p(y|x),然后再對y求期望。參考?http://www.cs.waikato.ac.nz/~eibe/pubs/nbr.pdf
前饋神經(jīng)網(wǎng)絡(luò)(如 CNN 系列)?用于 分類 和 回歸:
用于回歸:最后一層有m個(gè)神經(jīng)元,每個(gè)神經(jīng)元輸出一個(gè)標(biāo)量,m個(gè)神經(jīng)元的輸出可以看做向量
v,現(xiàn)全部連到一個(gè)神經(jīng)元上,則這個(gè)神經(jīng)元輸出
wv+b,是一個(gè)連續(xù)值,可以處理回歸問題,跟上面 Linear Regression
思想一樣
用于N分類:現(xiàn)在這m個(gè)神經(jīng)元最后連接到 N 個(gè)神經(jīng)元,就有 N
組w值不同的 wv+b,同理可以歸一化(比如用 softmax )變成
N個(gè)類上的概率(補(bǔ)充一下,如果不用 softmax,而是每個(gè) wx+b
用一個(gè)
sigmoid,就變成多標(biāo)簽問題,跟多分類的區(qū)別在于,樣本可以被打上多個(gè)標(biāo)簽)
循環(huán)神經(jīng)網(wǎng)絡(luò)(如 RNN 系列)?用于分類 和 回歸:
用于回歸 和 分類: 跟 CNN 類似,輸出層的值 y =
wv+b,可做分類可做回歸,只不過區(qū)別在于,RNN
的輸出跟時(shí)間有關(guān),即輸出的是 {y(t),
y(t+1),...}序列(關(guān)于時(shí)間序列,見下面的更新)
上面的例子其實(shí)都是從 prediction 的角度舉例的,如果從 training 角度來看,分類模型和回歸模型的目標(biāo)函數(shù)不同,分類常見的是 log loss,hinge loss, 而回歸是 square loss
?
?
??
?
如文章你已看懂,點(diǎn)個(gè)「喜歡」即可。
如若錯(cuò)誤以及不清晰的地方,隨時(shí)提出。
歡迎掃一掃上面二維碼加入我的個(gè)人微信號(hào)進(jìn)行技術(shù)交流。
?
?
?
?
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/19897.html
摘要:解決模型退化問題避免了過渡訓(xùn)練后,導(dǎo)致模型準(zhǔn)確率反而降低的情況。經(jīng)過實(shí)驗(yàn)后發(fā)現(xiàn)確實(shí)能解決這個(gè)問題。本人對于這個(gè)問題的確切原因并不清楚,但是猜測這個(gè)原因很可能是由于梯度消失以及眾多其他原因所造成的。 給定卷積神經(jīng)網(wǎng)絡(luò)輸入,卷積核大小,padding,步長,求輸出的shape?showImg(https://segmentfault.com/img/remote/146000001781...
閱讀 3466·2023-04-26 00:39
閱讀 4072·2021-09-22 10:02
閱讀 2555·2021-08-09 13:46
閱讀 1108·2019-08-29 18:40
閱讀 1455·2019-08-29 18:33
閱讀 781·2019-08-29 17:14
閱讀 1523·2019-08-29 12:40
閱讀 2983·2019-08-28 18:07