摘要:損失函數(shù)的作用可以理解為當前向傳播得到的預(yù)測值與真實值接近時,取較小值。
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)就是一個”萬能的模型+誤差修正函數(shù)“,每次根據(jù)訓練得到的結(jié)果與預(yù)想結(jié)果進行誤差分析,進而修改權(quán)值和閾值,一步一步得到能輸出和預(yù)想結(jié)果一致的模型。
舉一個例子:比如某廠商生產(chǎn)一種產(chǎn)品,投放到市場之后得到了消費者的反饋,根據(jù)消費者的反饋,廠商對產(chǎn)品進一步升級,優(yōu)化,從而生產(chǎn)出讓消費者更滿意的產(chǎn)品。這就是神經(jīng)網(wǎng)絡(luò)的核心。
神經(jīng)網(wǎng)絡(luò)的本質(zhì)機器學習可以看做是數(shù)理統(tǒng)計的一個應(yīng)用,在數(shù)理統(tǒng)計中一個常見的任務(wù)就是擬合,也就是給定一些樣本點,用合適的曲線揭示這些樣本點隨著自變量的變化關(guān)系。
深度學習同樣也是為了這個目的,只不過此時,樣本點不再限定為(x, y)點對,而可以是由向量、矩陣等等組成的廣義點對(X,Y)。而此時,(X,Y)之間的關(guān)系也變得十分復雜,不太可能用一個簡單函數(shù)表示。然而,人們發(fā)現(xiàn)可以用多層神經(jīng)網(wǎng)絡(luò)來表示這樣的關(guān)系,而多層神經(jīng)網(wǎng)絡(luò)的本質(zhì)就是一個多層復合的函數(shù)。
說白了,深度學習就是弄出來一個超級大的函數(shù),這個函數(shù)含有海量的權(quán)值參數(shù)、偏置參數(shù),再通過一系列復合的復雜運算,得到結(jié)果。
時間萬物,可以抽象成數(shù)學模型,用數(shù)字來表示,深度學習網(wǎng)絡(luò)就是對這些數(shù)字進行各種數(shù)學運算,計算得到人們期望的結(jié)果。
反向傳播前向傳遞輸入信號直至輸出產(chǎn)生誤差,反向傳播誤差信息更新權(quán)重矩陣。
其根本就是求偏導以及高數(shù)中的鏈式法則
梯度下降 是 找損失函數(shù)極小值的一種方法,
反向傳播 是 求解梯度的一種方法。
在訓練階段,深度神經(jīng)網(wǎng)絡(luò)經(jīng)過前向傳播之后,得到的預(yù)測值與先前給出真實值之間存在差距。我們可以使用損失函數(shù)來體現(xiàn)這種差距。損失函數(shù)的作用可以理解為:當前向傳播得到的預(yù)測值與真實值接近時,取較小值。反之取值增大。并且,損失函數(shù)應(yīng)是以參數(shù)(w 權(quán)重, b 偏置)為自變量的函數(shù)。
訓練神經(jīng)網(wǎng)絡(luò),“訓練”的含義:它是指通過輸入大量訓練數(shù)據(jù),使得神經(jīng)網(wǎng)絡(luò)中的各參數(shù)(w 權(quán)重, b 偏置)不斷調(diào)整“學習”到一個合適的值。使得損失函數(shù)最小。
如何訓練?采用 梯度下降 的方式,一點點地調(diào)整參數(shù),找損失函數(shù)的極小值(最小值)
為啥用梯度下降?由淺入深,我們最容易想到的調(diào)整參數(shù)(權(quán)重和偏置)是窮舉。即取遍參數(shù)的所有可能取值,比較在不同取值情況下得到的損失函數(shù)的值,即可得到使損失函數(shù)取值最小時的參數(shù)值。然而這種方法顯然是不可取的。因為在深度神經(jīng)網(wǎng)絡(luò)中,參數(shù)的數(shù)量是一個可怕的數(shù)字,動輒上萬,十幾萬。并且,其取值有時是十分靈活的,甚至精確到小數(shù)點后若干位。若使用窮舉法,將會造成一個幾乎不可能實現(xiàn)的計算量。如何求解梯度?第二個想到的方法就是微分求導。通過將損失函數(shù)進行全微分,取全微分方程為零或較小的點,即可得到理想?yún)?shù)。(補充:損失函數(shù)取下凸函數(shù),才能使得此方法可行?,F(xiàn)實中選取的各種損失函數(shù)大多也正是如此。)可面對神經(jīng)網(wǎng)絡(luò)中龐大的參數(shù)總量,純數(shù)學方法幾乎是不可能直接得到微分零點的。
因此我們使用了梯度下降法。既然無法直接獲得該點,那么我們就想要一步一步逼近該點。一個常見的形象理解是,爬山時一步一步朝著坡度最陡的山坡往下,即可到達山谷最底部。(至于為何不能閃現(xiàn)到谷底,原因是參數(shù)數(shù)量龐大,表達式復雜,無法直接計算)我們都知道,向量場的梯度指向的方向是其函數(shù)值上升最快的方向,也即其反方向是下降最快的方向。計算梯度的方式就是求偏導。
這里需要引入一個步長的概念。個人理解是:此梯度對參數(shù)當前一輪學習的影響程度。步長越大,此梯度影響越大。若以平面直角坐標系中的函數(shù)舉例,若初始參數(shù)x=10,步長為1 。那么參數(shù)需要調(diào)整十次才能到達谷底。若步長為5,則只需2次。若為步長為11,則永遠無法到達真正的谷底。
采用反向傳播算法。
關(guān)于反向傳播算法的推薦博文
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/45225.html
摘要:在這堂課中,學生將可以學習到深度學習的基礎(chǔ),學會構(gòu)建神經(jīng)網(wǎng)絡(luò),包括和等。課程中也會有很多實操項目,幫助學生更好地應(yīng)用自己學到的深度學習技術(shù),解決真實世界問題。 深度學習入門首推課程就是吳恩達的深度學習專項課程系列的 5 門課。該專項課程最大的特色就是內(nèi)容全面、通俗易懂并配備了豐富的實戰(zhàn)項目。今天,給大家推薦一份關(guān)于該專項課程的核心筆記!這份筆記只能用兩個字形容:全面! showImg(...
摘要:在最近的一次人工智能會議上,表示自己對于反向傳播非常懷疑,并提出應(yīng)該拋棄它并重新開始。在人工智能多年的發(fā)展過程中,反向傳播已經(jīng)成為了深度學習不可或缺的一部分。最后,我們會將這些規(guī)則組合成可用于任意神經(jīng)網(wǎng)絡(luò)的反向傳播算法。 現(xiàn)在的深度學習發(fā)展似乎已經(jīng)陷入了大型化、深度化的怪圈,我們設(shè)計的模型容易被對抗樣本欺騙,同時又需要大量的訓練數(shù)據(jù)——在無監(jiān)督學習上我們?nèi)〉玫耐黄七€很少。作為反向傳播這一深度...
摘要:例如,是一些神經(jīng)元的特征,其中突觸權(quán)重變化的符號取決于突觸前后的較精確至毫秒量級相對定時。,是大腦自身調(diào)整其神經(jīng)元之間的連接強度的生物過程。從他博士期間就開始研究至今,目前可以說深度學習占領(lǐng)著機器學習的半壁江山,而則是深度學習的核心。 上次說到誤差梯度的反向傳播(Backpropagation),這次咱們從這繼續(xù)。需要說明的是,原文太長,有的地方會有些冗長啰嗦,所以后面的我會選擇性地進行翻譯...
摘要:下面介紹梯度下降算法以并用反向傳播來求梯度梯度下降看名字就和梯度脫不了關(guān)系了。運用反向傳播,我們可以計算損失函數(shù)關(guān)于每一層權(quán)重的梯度,然后實現(xiàn)每一層權(quán)重的訓練。應(yīng)用小批量梯度下降法的隨機梯度下降法已經(jīng)成為當前深度學習的主流算法。 【DL-CV】損失函數(shù),SVM損失與交叉熵損失【DL-CV】激活函數(shù)及其選擇 有了損失函數(shù)L,我們能定量的評價模型的好壞。我們希望損失能最小化,或具體點,我們...
閱讀 3212·2021-11-08 13:18
閱讀 1365·2021-10-09 09:57
閱讀 1197·2021-09-22 15:33
閱讀 3996·2021-08-17 10:12
閱讀 5079·2021-08-16 11:02
閱讀 2693·2019-08-30 10:56
閱讀 975·2019-08-29 18:31
閱讀 3263·2019-08-29 16:30