成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

你真的理解機(jī)器學(xué)習(xí)中偏差 - 方差之間的權(quán)衡嗎?

lastSeries / 1926人閱讀

摘要:機(jī)器學(xué)習(xí)中的偏差方差之間的權(quán)衡機(jī)器學(xué)習(xí)全部是關(guān)于給定輸入數(shù)據(jù)和給定輸出數(shù)據(jù),然后去尋找一個最佳映射函數(shù),這個映射函數(shù)通常也被叫做目標(biāo)函數(shù)。

作者:chen_h
微信號 & QQ:862251340
微信公眾號:coderpai
簡書地址:http://www.jianshu.com/p/f143...


我認(rèn)為對偏差 - 方差之間的權(quán)衡判讀對學(xué)習(xí)機(jī)器學(xué)習(xí)是非常重要的。那么為什么這么說呢?因?yàn)檫@個現(xiàn)象的背后是所有參數(shù),性能和幾乎所有機(jī)器學(xué)習(xí)模型的深層原因。如果你能很深刻的理解這個,我保證你能很好的理解機(jī)器學(xué)習(xí)的每一個模型。

所以,我們就不浪費(fèi)時間在無聊的介紹中,直接深入挖掘吧。理論講解可能有一點(diǎn)枯燥,但我希望你能耐心看完本文。

機(jī)器學(xué)習(xí)中的偏差 - 方差之間的權(quán)衡

機(jī)器學(xué)習(xí)全部是關(guān)于給定輸入數(shù)據(jù)(X)和給定輸出數(shù)據(jù)(Y),然后去尋找一個最佳映射函數(shù)(F),這個映射函數(shù)通常也被叫做目標(biāo)函數(shù)。

任何機(jī)器學(xué)習(xí)算法的預(yù)測誤差可以分解為三部分,即:偏差誤差+方差誤差+不可約的誤差(對于給定的模型,我們不能進(jìn)一步減少的誤差)。在這個文章中,我們將重點(diǎn)來討論機(jī)器學(xué)習(xí)中的前兩個誤差。我們按照如下目錄來進(jìn)行講解:

1)偏差誤差;

2)方差誤差;

3)偏差 - 方差之間的權(quán)衡;

4)一些想法的總結(jié);

1. 偏差誤差

用簡單的話來說,這個誤差是由于簡單的假設(shè)所造成的,因?yàn)槲覀兊募僭O(shè)越簡單,那么我們的模型更加容易去訓(xùn)練。

一般而言,參數(shù)化算法具有較高的偏差,使得學(xué)習(xí)速度非???,而且非常容易去理解,但是通常不太靈活。

注意:對于參數(shù)化算法和非參數(shù)化算法之間的區(qū)別,簡單來說,參數(shù)化算法對數(shù)據(jù)進(jìn)行參數(shù)化,形成很多的特征,這種方法訓(xùn)練速度非???,而且也不需要很多的數(shù)據(jù),但是他不是很靈活。非參數(shù)化算法對目標(biāo)函數(shù)做出很少或者根本不做任何假設(shè),但是它需要更多的數(shù)據(jù),訓(xùn)練速度非常慢,模型復(fù)雜度非常高,但是模型非常強(qiáng)大。

低偏差:對目標(biāo)函數(shù)提出更少的假設(shè);

高偏差:對目標(biāo)函數(shù)提出更多的假設(shè);

低偏差模型例子:KNN 和 SVM;

高偏差模型例子:線性回歸和邏輯斯特回歸;

2. 方差誤差

1)如果我們使用不同的數(shù)據(jù)去訓(xùn)練同一個模型,那么最后我們得到的目標(biāo)函數(shù)估計也是會改變的。

2)目標(biāo)函數(shù)是由機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)所估計得到的,所以我們期望訓(xùn)練數(shù)據(jù)擁有一定的方差。理想情況下,我們不希望目標(biāo)函數(shù)從一個訓(xùn)練數(shù)據(jù)集到另一個訓(xùn)練數(shù)據(jù)集有太大的變化,也就是說我們的算法需要很好的從訓(xùn)練數(shù)據(jù)中找到一些映射的特征關(guān)系,這樣可以保證不同訓(xùn)練集都有一個差不多的目標(biāo)函數(shù)。

低方差:隨著訓(xùn)練數(shù)據(jù)集的變化,對目標(biāo)函數(shù)估計值的變化非常?。?/p>

高方差:隨著訓(xùn)練數(shù)據(jù)集的變化,對目標(biāo)函數(shù)估計值的變化非常大;

一般而言,具有很大靈活性的非參數(shù)學(xué)習(xí)算法都具有很高的方差。

高方差例子:KNN 和 SVM。

3. 偏差 - 方差之間的權(quán)衡

在上面的例子中我們可以看到一個趨勢:參數(shù)或者線性的機(jī)器學(xué)習(xí)算法一般都會有一個很高的偏差和一個很低的方差。但是,非參數(shù)或者非線性的機(jī)器學(xué)習(xí)算法一般都有一個很低的偏差和一個很高的方差。所有,我們需要在這兩者之間找到一個平衡點(diǎn),來優(yōu)化我們的算法。

比如,KNN 算法有很低的偏差和很高的方差,但是我們可以通過調(diào)整 k 的值來改變偏差和方差之間的權(quán)衡關(guān)系,從而達(dá)到一個比較平衡的狀態(tài)。

因此,我們增加偏差會導(dǎo)致方差的減少,同理,我們增加方差會導(dǎo)致偏差的減少。但在實(shí)踐中,我們無法去計算真正的偏差和方差值,因?yàn)槲覀儾恢缹?shí)際的目標(biāo)函數(shù)。但是,作為一種方法,偏差和方差為我們提供了一種去判斷機(jī)器學(xué)習(xí)算法性能的方法。


4. 一些想法的總結(jié)

1)機(jī)器學(xué)習(xí)是去找到一個映射函數(shù)(F),這個函數(shù)也經(jīng)常被稱之為目標(biāo)函數(shù);

2)偏差是模型所做的簡化假設(shè),使得目標(biāo)函數(shù)更加容易求解;

3)方差是在給定不同訓(xùn)練數(shù)據(jù)集的情況下,目標(biāo)函數(shù)估計值所改變的量;

4)權(quán)衡是去調(diào)整一些參數(shù)使得偏差和方差之間相對平衡;


作者:chen_h
微信號 & QQ:862251340
簡書地址:http://www.jianshu.com/p/f143...

CoderPai 是一個專注于算法實(shí)戰(zhàn)的平臺,從基礎(chǔ)的算法到人工智能算法都有設(shè)計。如果你對算法實(shí)戰(zhàn)感興趣,請快快關(guān)注我們吧。加入AI實(shí)戰(zhàn)微信群,AI實(shí)戰(zhàn)QQ群,ACM算法微信群,ACM算法QQ群。長按或者掃描如下二維碼,關(guān)注 “CoderPai” 微信號(coderpai)


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/41080.html

相關(guān)文章

  • 論文解讀:華盛頓大學(xué)教授Pedro Domingos技術(shù)論文:機(jī)器學(xué)習(xí)一些有用知識(一)

    摘要:機(jī)器學(xué)習(xí)初學(xué)者最常犯的錯誤是測試訓(xùn)練數(shù)據(jù),并有成功的幻覺。機(jī)器學(xué)習(xí)中的每個人都知道過度擬合,但它有很多形式,并不是很明顯。事實(shí)上,理論與實(shí)踐的密切相互作用是機(jī)器學(xué)習(xí)多年來取得如此巨大進(jìn)步的主要原因之一。 摘要: 這是機(jī)器學(xué)習(xí)研究人員和從業(yè)人員所學(xué)到的12個關(guān)鍵經(jīng)驗(yàn)教訓(xùn)的總結(jié),包括避免陷阱,重點(diǎn)問題以及常見問題的答案。 showImg(https://segmentfault.com/i...

    wqj97 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<