摘要:看了很多文章,梯度下降算法描述都比較艱澀難懂比如說(shuō)目標(biāo)函數(shù)關(guān)于參數(shù)的梯度將是損失函數(shù)上升最快的方向。求最小值對(duì)于希臘字母本能地覺(jué)得很暈,下面將以求最小值講解梯度下降算法。
看了很多文章,梯度下降算法描述都比較艱澀難懂
比如說(shuō): 目標(biāo)函數(shù)f(θ)關(guān)于參數(shù)θ的梯度將是損失函數(shù)(loss function)上升最快的方向。然后會(huì)推導(dǎo)出下面這個(gè)公式。
對(duì)于希臘字母本能地覺(jué)得很暈,下面將以y = x^x; (0 對(duì)于y = x^x在0-1中實(shí)際上是如下圖一個(gè)函數(shù),如何求取這個(gè)函數(shù)的最小值呢? 數(shù)學(xué)知識(shí)中我們知道導(dǎo)數(shù)dy(也就是沿著函數(shù)方向的切線)能夠知道函數(shù)值的趨勢(shì),也就是梯度,導(dǎo)數(shù)范圍是[-1,1], 增加或者是減少;如圖所示: 假如我們?cè)O(shè)定在求最小值過(guò)程中,每次x的變化是0.05,直到找到最小值,這個(gè)0.05在機(jī)器學(xué)習(xí)中稱(chēng)為步長(zhǎng),也叫學(xué)習(xí)率lr(learning-rate)。 由于導(dǎo)數(shù)影響函數(shù)趨勢(shì)方向,dy*lr能給表示x的變化方向,當(dāng)導(dǎo)數(shù)為1表示非常陡峭,可以加快步速,當(dāng)導(dǎo)數(shù)趨近0時(shí)需要放慢步速,表示將要到達(dá)極值。 根據(jù)學(xué)習(xí)率,我們得出 X1 = X0 - dy * lr,其中l(wèi)r這里設(shè)置為0.05,dy即對(duì)函數(shù)求導(dǎo): 得出dy = (1+lnx) * x^x 輸出結(jié)果: 通過(guò)結(jié)果可以判斷出,當(dāng)x約等于0.367879442時(shí),y有最小值0.6922006275553464 在學(xué)習(xí)率為0.05的情況下,1000次訓(xùn)練中,在最后約100次震蕩中,輸出的的y結(jié)果都是一樣的,也就是說(shuō)我們的訓(xùn)練次數(shù)是過(guò)多的,可以適當(dāng)調(diào)整; 但如果我們一開(kāi)始的設(shè)置的學(xué)習(xí)率是0.01,1000次訓(xùn)練,最后一次輸出,【0.3721054412801767 0.6922173655754094】,得出不是極值,這時(shí)候也需要適當(dāng)?shù)恼{(diào)整,這叫做調(diào)參,得出最適合的訓(xùn)練模型。 至此,y = x^x求最小值已經(jīng)完成,但是實(shí)際機(jī)器學(xué)習(xí)的函數(shù)并沒(méi)有那么簡(jiǎn)單,也就是下面這種圖。 簡(jiǎn)化一下函數(shù)圖像,如下圖,上面的求值方式可能只求到第一個(gè)最低點(diǎn),稱(chēng)為局部最低點(diǎn),實(shí)際上我們要求的是全局最低點(diǎn)在第二個(gè)最低點(diǎn)。 所以我們繼續(xù)調(diào)參: 當(dāng)然這里的系數(shù)和參數(shù),都是假定的,都需要實(shí)際嘗試去得到最適合的數(shù),所以聽(tīng)說(shuō)算法工程師也會(huì)自嘲調(diào)參工程師。
假設(shè)我們X0初始值是1,X1需要往0的方向去求取最小值,在x為1的時(shí)候?qū)?shù)為負(fù)數(shù)。
假設(shè)我們X0初始值是0,X1需要往1的方向去求最小值,在x為0時(shí)導(dǎo)數(shù)為正數(shù)。// 求導(dǎo)過(guò)程
y = x^x
// 對(duì)函數(shù)降冪
lny = xlnx
// 左右兩邊分別求導(dǎo)
1/y * dy = 1 + lnx
// 左右兩邊同時(shí)乘以y
dy = (1+ lnx)y
// 因?yàn)閥 = x^x
dy = (1+lnx) * x^x
// 函數(shù)
const y = function(x) {
return Math.pow(x, x);
};
// 導(dǎo)數(shù)
const dy = function(x) {
return (Math.log(x) + 1) * x * x;
};
// 步長(zhǎng)
const step = 0.05;
// 訓(xùn)練次數(shù)
const tranTimes = 1000
// 初始值x
let start = 1;
for (let count = 1; count < tranTimes; count++) {
start = start - dy(start) * step;
console.log(start, y(start));
}
0.95 0.9524395584709955
index.html:21 0.9071896099092381 0.9154278618565974
index.html:21 0.8700480926733879 0.8859306522286503
index.html:21 0.8374677719259425 0.8619622953920216
index.html:21 0.8086201886475226 0.8421712374320481
index.html:21 0.7828717701107167 0.8256070591665992
index.html:21 0.7597286934875257 0.8115828484109726
index.html:21 0.7387996916491102 0.7995903987023993
index.html:21 0.719770279950795 0.789246056834791
index.html:21 0.7023844759968008 0.7802550613870627
index.html:21 0.6864315663021606 0.7723874207927244
index.html:21 0.6717363517465544 0.7654612085706618
index.html:21 0.6581518405386136 0.7593307516282222
index.html:21 0.6455536948955527 0.7538781218982149
index.html:21 0.6338359551226174 0.7490069045677286
index.html:21 0.6229077080606727 0.7446375646724406
index.html:21 0.612690463173548 0.7407039548649291
index.html:21 0.6031160654545613 0.7371506504493626
index.html:21 0.5941250201862136 0.7339308925190816
index.html:21 0.5856651369738545 0.7310049838252315
index.html:21 0.5776904236672961 0.7283390256729259
index.html:21 0.570160177606762 0.7259039144927062
index.html:21 0.5630382339758626 0.7236745381284763
//省略
index.html:21 0.3678794436566963 0.6922006275553464
index.html:21 0.36787944361098257 0.6922006275553464
index.html:21 0.36787944356610974 0.6922006275553464
index.html:21 0.3678794435220623 0.6922006275553464
index.html:21 0.36787944347882506 0.6922006275553464
index.html:21 0.3678794434363831 0.6922006275553464
index.html:21 0.3678794433947219 0.6922006275553464
index.html:21 0.36787944335382694 0.6922006275553464
index.html:21 0.3678794433136842 0.6922006275553464
index.html:21 0.3678794432742799 0.6922006275553464
index.html:21 0.36787944323560035 0.6922006275553464
index.html:21 0.36787944319763227 0.6922006275553464
index.html:21 0.3678794431603626 0.6922006275553464
index.html:21 0.36787944312377846 0.6922006275553464
index.html:21 0.36787944308786724 0.6922006275553464
index.html:21 0.36787944305261655 0.6922006275553464
index.html:21 0.3678794430180143 0.6922006275553464
index.html:21 0.3678794429840485 0.6922006275553464
index.html:21 0.36787944295070746 0.6922006275553464
index.html:21 0.3678794429179797 0.6922006275553464
index.html:21 0.36787944288585395 0.6922006275553464
index.html:21 0.3678794428543191 0.6922006275553464
index.html:21 0.3678794428233643 0.6922006275553464
index.html:21 0.3678794427929789 0.6922006275553464
index.html:21 0.36787944276315243 0.6922006275553464
index.html:21 0.3678794427338746 0.6922006275553464
index.html:21 0.36787944270513523 0.6922006275553464
index.html:21 0.3678794426769245 0.6922006275553464
index.html:21 0.3678794426492327 0.6922006275553464
index.html:21 0.3678794426220503 0.6922006275553464
index.html:21 0.36787944259536787 0.6922006275553464
dy(start) * step完全依賴(lài)上一步的趨勢(shì),導(dǎo)致震蕩不到全局最低點(diǎn)。所以我們可以添加一些系數(shù),設(shè)置當(dāng)前導(dǎo)數(shù)影響系數(shù)為0.9,上一導(dǎo)數(shù)影響系數(shù)為0.1,0.9 * dy(start) * step + 0.1 * dy(lastStart) * step,可以保留一些梯度直到全局最低點(diǎn)。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/106613.html
摘要:多變量線性回歸應(yīng)用場(chǎng)景目前為止,我們探討了單變量特征的回歸模型,現(xiàn)在我們對(duì)房?jī)r(jià)模型增加更多的特征,例如房間數(shù)樓層等,構(gòu)成一個(gè)含有多個(gè)變量的模型。 1 多變量線性回歸應(yīng)用場(chǎng)景 目前為止,我們探討了單變量/特征的回歸模型,現(xiàn)在我們對(duì)房?jī)r(jià)模型增加更多的特征,例如房間數(shù)樓層等,構(gòu)成一個(gè)含有多個(gè)變量的模型.。 1.1 單變量線性回歸案例 模型: hθ(x) = θ0 + θ1x showIm...
摘要:多變量線性回歸應(yīng)用場(chǎng)景目前為止,我們探討了單變量特征的回歸模型,現(xiàn)在我們對(duì)房?jī)r(jià)模型增加更多的特征,例如房間數(shù)樓層等,構(gòu)成一個(gè)含有多個(gè)變量的模型。 1 多變量線性回歸應(yīng)用場(chǎng)景 目前為止,我們探討了單變量/特征的回歸模型,現(xiàn)在我們對(duì)房?jī)r(jià)模型增加更多的特征,例如房間數(shù)樓層等,構(gòu)成一個(gè)含有多個(gè)變量的模型.。 1.1 單變量線性回歸案例 模型: hθ(x) = θ0 + θ1x showIm...
摘要:在回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱(chēng)為一元線性回歸分析如果回歸分析中包括兩個(gè)及以上個(gè)自變量,且因變量和自變量直接是線性關(guān)系,則稱(chēng)之為多元線性回歸分析。參考斯坦福大學(xué)機(jī)器學(xué)習(xí)公開(kāi)課 定義 假設(shè)函數(shù)與代價(jià)函數(shù)(損失函數(shù)) 特征量放縮 最小化代價(jià)函數(shù) 收斂判定 1.什么是線性回歸 在統(tǒng)計(jì)學(xué)中,線性回歸是利用被稱(chēng)為線性回歸方程的最小平...
閱讀 3594·2021-09-22 10:52
閱讀 1604·2021-09-09 09:34
閱讀 2007·2021-09-09 09:33
閱讀 771·2019-08-30 15:54
閱讀 2691·2019-08-29 11:15
閱讀 730·2019-08-26 13:37
閱讀 1682·2019-08-26 12:11
閱讀 2989·2019-08-26 12:00