機(jī)器學(xué)習(xí) 面試常見問題&答案 ②

gself 發(fā)布于2019-06-26 18:44 / 2901人閱讀

摘要：出現(xiàn)方差是正常的，但方差過高表明模型無法將其預(yù)測結(jié)果泛化到從中抽取訓(xùn)練樣本的較大母體。機(jī)器學(xué)習(xí)中的學(xué)習(xí)曲線是一種可視化圖形，能根據(jù)一系列訓(xùn)練實(shí)例中的訓(xùn)練和測試數(shù)據(jù)比較模型的指標(biāo)性能。

欠擬合（通常代表高偏差）

精度

如前所述如果模型具有足夠的數(shù)據(jù)，但因不夠復(fù)雜而無法捕捉基本關(guān)系，則會(huì)出現(xiàn)偏差。這樣一來，模型一直會(huì)系統(tǒng)地錯(cuò)誤表示數(shù)據(jù)，從而導(dǎo)致預(yù)測精度低。這種現(xiàn)象叫做欠擬合（underfitting）。

簡單來說，如果模型不適當(dāng)，就會(huì)出現(xiàn)偏差。舉個(gè)例子：如果對象是按顏色和形狀分類的，但模型只能按顏色來區(qū)分對象和將對象分類（模型過度簡化），因而一直會(huì)錯(cuò)誤地分類對象。

或者，我們可能有本質(zhì)上是多項(xiàng)式的連續(xù)數(shù)據(jù)，但模型只能表示線性關(guān)系。在此情況下，我們向模型提供多少數(shù)據(jù)并不重要，因?yàn)槟Ｐ透緹o法表示其中的基本關(guān)系，我們需要更復(fù)雜的模型。

過擬合（通常代表高方差）

過擬合又可以稱之為維度災(zāi)難。

機(jī)器學(xué)習(xí)中的維度災(zāi)難 -
紅色石頭的專欄 - CSDN博客 https://blog.csdn.net/red_stone1/article/details/71692444

過少的數(shù)據(jù)樣本與有效特征，過高的維度，會(huì)導(dǎo)致模型學(xué)到噪聲和不必要的無效特征，這個(gè)概念叫做過擬合，是維度災(zāi)難的一個(gè)直接后果。

在訓(xùn)練模型時(shí)，通常使用來自較大母體（訓(xùn)練集）的有限數(shù)量樣本。如果利用選擇的數(shù)據(jù)子集反復(fù)訓(xùn)練模型，可以預(yù)料它的預(yù)測結(jié)果會(huì)因提供給它的具體樣本而異。在這里，方差（variance）用來測量預(yù)測結(jié)果對于任何給定的測試樣本會(huì)出現(xiàn)多大的變化。

出現(xiàn)方差是正常的，但方差過高表明模型無法將其預(yù)測結(jié)果泛化到從中抽取訓(xùn)練樣本的較大母體。對訓(xùn)練集高度敏感也稱為過擬合（overfitting），而且通常出現(xiàn)在模型過于復(fù)雜或我們沒有足夠的數(shù)據(jù)支持它時(shí)。

通常，可以利用更多數(shù)據(jù)進(jìn)行訓(xùn)練，以降低模型預(yù)測結(jié)果的方差并提高精度。

如何改進(jìn)模型的有效性

我們可以看到，在給定一組固定數(shù)據(jù)時(shí)，模型不能過于簡單或復(fù)雜。如果過于簡單，模型無法了解數(shù)據(jù)并會(huì)錯(cuò)誤地表示數(shù)據(jù)。但是，如果建立非常復(fù)雜的模型，則需要更多數(shù)據(jù)才能了解基本關(guān)系，否則十分常見的是，模型會(huì)推斷出在數(shù)據(jù)中實(shí)際上并不存在的關(guān)系。

關(guān)鍵在于，通過找出正確的模型復(fù)雜度來找到最大限度降低偏差和方差的最有效點(diǎn)。當(dāng)然，數(shù)據(jù)越多，模型隨著時(shí)間推移會(huì)變得越好。 ?

要詳細(xì)了解偏差和方差，建議閱讀 Scott Fortmann-Roe
撰寫的這篇文章。http://scott.fortmann-roe.com...

除了選定用來訓(xùn)練模型的數(shù)據(jù)子集外，您使用的哪些來自給定數(shù)據(jù)集的特征也會(huì)顯著影響模型的偏差和方差。

聊一下模型訓(xùn)練過程中的學(xué)習(xí)曲線

我們根據(jù)模型通過可視化圖形從數(shù)據(jù)中學(xué)習(xí)的能力來探討偏差與方差之間的關(guān)系。機(jī)器學(xué)習(xí)中的學(xué)習(xí)曲線是一種可視化圖形，能根據(jù)一系列訓(xùn)練實(shí)例中的訓(xùn)練和測試數(shù)據(jù)比較模型的指標(biāo)性能。在查看數(shù)據(jù)與誤差之間的關(guān)系時(shí)，我們通常會(huì)看到，隨著訓(xùn)練點(diǎn)數(shù)量的增加，誤差會(huì)趨于下降。由于我們嘗試構(gòu)建從經(jīng)驗(yàn)中學(xué)習(xí)的模型，因此這很有意義。我們將訓(xùn)練集和測試集分隔開，以便更好地了解能否將模型泛化到未見過的數(shù)據(jù)而不是擬合到剛見過的數(shù)據(jù)。在學(xué)習(xí)曲線中，當(dāng)訓(xùn)練曲線和測試曲線均達(dá)到穩(wěn)定階段，并且兩者之間的差距不再變化時(shí)，則可以確認(rèn)模型已盡其所能地了解數(shù)據(jù)。

偏差

在訓(xùn)練誤差和測試誤差收斂并且相當(dāng)高時(shí)，這實(shí)質(zhì)上表示模型具有偏差。無論我們向其提供多少數(shù)據(jù)，模型都無法表示基本關(guān)系，因而出現(xiàn)系統(tǒng)性的高誤差。

方差

如果訓(xùn)練誤差與測試誤差之間的差距很大，這實(shí)質(zhì)上表示模型具有高方差。與偏差模型不同的是，如果有更多可供學(xué)習(xí)的數(shù)據(jù)，或者能簡化表示數(shù)據(jù)的最重要特征的模型，則通?？梢愿倪M(jìn)具有方差的模型。

理想的學(xué)習(xí)曲線

模型的最終目標(biāo)是，誤差小并能很好地泛化到未見過的數(shù)據(jù)（測試數(shù)據(jù)）。如果測試曲線和訓(xùn)練曲線均收斂，并且誤差極低，就能看到這種模型。這種模型能根據(jù)未見過的數(shù)據(jù)非常準(zhǔn)確地進(jìn)行預(yù)測。

說一下你理解的信息增益(Information gain)

熵：表示變量的不確定性。

條件熵：在一個(gè)條件下，變量的不確定性。

信息增益：熵 - 條件熵

在一個(gè)條件下，信息不確定性減少的程度！

例子：原來明天下雨例如信息熵是2，條件熵是0.01（因?yàn)槿绻顷幪炀拖掠甑母怕屎艽?，信息就少了），這樣相減后為1.99，在獲得陰天這個(gè)信息后，下雨信息不確定性減少了1.99！是很多的！所以信息增益大！也就是說，陰天這個(gè)信息對下雨來說是很重要的！

所以在特征選擇的時(shí)候常常用信息增益，如果IG（信息增益大）的話那么這個(gè)特征對于分類來說很關(guān)鍵~~

決策樹就是這樣來找特征的。

說一下分類和回歸的區(qū)別？

兩者追到本質(zhì)是一樣。

分類模型和回歸模型本質(zhì)一樣，分類模型可將回歸模型的輸出離散化，回歸模型也可將分類模型的輸出連續(xù)化，舉幾個(gè)例子:

Logistic Regression 和 Linear Regression：

Linear Regression：輸出一個(gè)標(biāo)量
wx+b，這個(gè)值是連續(xù)值，所以可以用來處理回歸問題

Logistic Regression：把上面的 wx+b 通過 sigmoid
函數(shù)映射到(0,1)上，并劃分一個(gè)閾值，大于閾值的分為一類，小于等于分為另一類，可以用來處理二分類問題

更進(jìn)一步：對于N分類問題，則是先得到N組w值不同的
wx+b，然后歸一化，比如用 softmax
函數(shù)，最后變成N個(gè)類上的概率，可以處理多分類問題

Support Vector Regression 和 Support Vector Machine:

SVR：輸出
wx+b，即某個(gè)樣本點(diǎn)到分類面的距離，是連續(xù)值，所以是回歸模型

SVM：把這個(gè)距離用 sign(·)
函數(shù)作用，距離為正(在超平面一側(cè))的樣本點(diǎn)是一類，為負(fù)的是另一類，所以是分類模型

Naive Bayes?用于分類和回歸:

用于分類：y是離散的類別，所以得到離散的 p(y|x)，給定 x
，輸出每個(gè)類上的概率

用于回歸：對上面離散的 p(y|x)求期望
ΣyP(y|x)，就得到連續(xù)值。但因?yàn)榇藭r(shí)y本身是連續(xù)的值，所以最地道的做法是，得到連續(xù)的概率密度函數(shù)p(y|x)，然后再對y求期望。參考?http://www.cs.waikato.ac.nz/~eibe/pubs/nbr.pdf

前饋神經(jīng)網(wǎng)絡(luò)(如 CNN 系列)?用于分類和回歸:

用于回歸：最后一層有m個(gè)神經(jīng)元，每個(gè)神經(jīng)元輸出一個(gè)標(biāo)量，m個(gè)神經(jīng)元的輸出可以看做向量
v，現(xiàn)全部連到一個(gè)神經(jīng)元上，則這個(gè)神經(jīng)元輸出
wv+b，是一個(gè)連續(xù)值，可以處理回歸問題，跟上面 Linear Regression
思想一樣

用于N分類：現(xiàn)在這m個(gè)神經(jīng)元最后連接到 N 個(gè)神經(jīng)元，就有 N
組w值不同的 wv+b，同理可以歸一化（比如用 softmax ）變成
N個(gè)類上的概率（補(bǔ)充一下，如果不用 softmax，而是每個(gè) wx+b
用一個(gè)
sigmoid，就變成多標(biāo)簽問題，跟多分類的區(qū)別在于，樣本可以被打上多個(gè)標(biāo)簽）

循環(huán)神經(jīng)網(wǎng)絡(luò)(如 RNN 系列)?用于分類和回歸：

用于回歸和分類：跟 CNN 類似，輸出層的值 y =
wv+b，可做分類可做回歸，只不過區(qū)別在于，RNN
的輸出跟時(shí)間有關(guān)，即輸出的是 {y(t),
y(t+1),...}序列（關(guān)于時(shí)間序列，見下面的更新）

上面的例子其實(shí)都是從 prediction 的角度舉例的，如果從 training 角度來看，分類模型和回歸模型的目標(biāo)函數(shù)不同，分類常見的是 log loss,hinge loss, 而回歸是 square loss

?
?
??
?

如文章你已看懂，點(diǎn)個(gè)「喜歡」即可。
如若錯(cuò)誤以及不清晰的地方，隨時(shí)提出。
歡迎掃一掃上面二維碼加入我的個(gè)人微信號(hào)進(jìn)行技術(shù)交流。
?
?
?
?

GPU云服務(wù)器云服務(wù)器常見機(jī)器學(xué)習(xí)算法機(jī)器學(xué)習(xí)常見算法大數(shù)據(jù)面試題及答案 java面試題及答案

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/19897.html

發(fā)表評論

登陸后可評論

0條評論

gself

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

tensorflow2.9.1

閱讀 3466·2023-04-26 00:39
Kali Linux安全測試（177講全）安全牛苑房宏

閱讀 4072·2021-09-22 10:02
CloudCone：美國洛杉磯CN2 GIA服務(wù)器/E3-1220/16G/1 TB HDD/15

閱讀 2555·2021-08-09 13:46
jQuery 實(shí)現(xiàn)一個(gè)文章閱讀進(jìn)度條功能

閱讀 1108·2019-08-29 18:40
淘寶css初始化代碼

閱讀 1455·2019-08-29 18:33
深入理解盒模型與BFC

閱讀 781·2019-08-29 17:14
Hybird-App離線緩存系統(tǒng)

閱讀 1523·2019-08-29 12:40
文字垂直居中

閱讀 2983·2019-08-28 18:07

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

機(jī)器學(xué)習(xí) 面試常見問題&答案 ②

相關(guān)文章

機(jī)器學(xué)習(xí) 面試常見問題&答案 ①

發(fā)表評論

0條評論

gself

男|高級(jí)講師

TA的文章

tensorflow2.9.1

Kali Linux安全測試（177講全）安全牛苑房宏

CloudCone：美國洛杉磯CN2 GIA服務(wù)器/E3-1220/16G/1 TB HDD/15

jQuery 實(shí)現(xiàn)一個(gè)文章閱讀進(jìn)度條功能

淘寶css初始化代碼

深入理解盒模型與BFC

Hybird-App離線緩存系統(tǒng)

文字垂直居中

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

機(jī)器學(xué)習(xí) 面試常見問題&答案 ②

相關(guān)文章

發(fā)表評論

0條評論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！