成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

開始學(xué)習(xí)機器學(xué)習(xí)之前你必須要了解的知識有哪些?機器學(xué)習(xí)系列入門篇

leoperfect / 3491人閱讀

摘要:進入當(dāng)前程序的學(xué)習(xí)系統(tǒng)的所有樣本稱作輸入,并組成輸入空間。結(jié)束語注意這篇文章僅僅是我接下來的機器學(xué)習(xí)系列的第一篇,后續(xù)還會有更多的內(nèi)容。


往期回顧:統(tǒng)計學(xué)習(xí)方法第二版 李航

距離上次介紹機器學(xué)習(xí)相關(guān)的內(nèi)容,已經(jīng)過了一年的時間了,而這篇博客目前的閱讀量也將近3000k,這樣數(shù)據(jù)看起來似乎也還算不錯,可惜因為我當(dāng)時沒有足夠的時間和精力去完整把這篇博客寫完,只介紹了機器學(xué)習(xí)的基礎(chǔ)知識,感知機和KNN等知識。

個人認為這篇博客在每個知識點上總結(jié)得非常的詳細,但這次我想換一種方式,以一種更簡潔的方式來介紹機器學(xué)習(xí)的理論基礎(chǔ)以及幾種常用模型。

那么本篇文章呢,是帶大家入門機器學(xué)習(xí)的第一期,也就是會介紹機器學(xué)習(xí)的理論基礎(chǔ)。

? 機器學(xué)習(xí)理論基礎(chǔ)

那在這里,我也要先引用一下一個非常經(jīng)典的小故事,幫助大家更清楚地理解機器學(xué)習(xí)。


在一個酒吧里,吧臺上擺著十杯幾乎一樣的紅酒,老板跟你打趣說想不想來玩?zhèn)€游戲,贏了免費喝酒,輸了付3倍酒錢,那么贏的概率是多少?

你是個愛冒險的人,果斷說玩!

老板接著道:你眼前的這十杯紅酒,每杯略不相同,前五杯屬于「赤霞珠」后五杯屬于「黑皮諾」。現(xiàn)在,我重新倒一杯酒,你只需要正確地告訴我它屬于哪一類。

聽完你有點心虛:根本不懂酒啊,光靠看和嘗根本區(qū)分辨不出來,不過想起自己是搞機器學(xué)習(xí)的,不由多了幾分底氣爽快地答應(yīng)了老板!

你沒有急著品酒而是問了老板每杯酒的一些具體信息:酒精濃度、顏色深度,以及一份紙筆, 老板一邊倒一杯新酒,你邊瘋狂打草稿。

很快,你告訴老板這杯新酒應(yīng)該是「赤霞珠」。

老板瞪大了眼下巴也差點驚掉,從來沒有人一口酒都不嘗就能答對,無數(shù)人都是反復(fù)嘗來嘗去,最后以猶豫不定猜錯而結(jié)束。

你神秘地笑了笑,老板信守承諾讓你開懷暢飲。微醺之時,老板終于忍不住湊向你打探是怎么做到的。

你炫耀道:無他,但機器學(xué)習(xí)熟爾。

老板:…

怎么辨別出來的呢?

如下圖,故事中的你畫了類似這樣子的圖,就區(qū)分出來了,到底是怎么回事?

? 1 有監(jiān)督學(xué)習(xí)

指對數(shù)據(jù)的若干特征與若干標(biāo)簽(類型)之間的關(guān)聯(lián)性進行建模的過程; 只要模型被確定,就可以應(yīng)用到新的未知數(shù)據(jù)上。

這類學(xué)習(xí)過程可以進一步分為「分類」(classification)任務(wù)和「回歸」(regression)任務(wù)。

在分類任務(wù)中,標(biāo)簽都是離散值;

而在回歸任務(wù)中,標(biāo)簽都是連續(xù)值。

? 2 無監(jiān)督學(xué)習(xí)

指對不帶任何標(biāo)簽的數(shù)據(jù)特征進行建模,通常被看成是一種“讓數(shù)據(jù)自己介紹自己” 的過程。

這類模型包括「聚類」(clustering)任務(wù)和「降維」(dimensionality reduction)任務(wù)。

聚類算法可以將數(shù)據(jù)分成不同的組別,而降維算法追求用更簡潔的方式表現(xiàn)數(shù)據(jù)。

? 3 半監(jiān)督學(xué)習(xí)

另外,還有一種半監(jiān)督學(xué)習(xí)(semi-supervised learning)方法,介于有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間。通??梢栽跀?shù)據(jù)不完整時使用。

? 4 強化學(xué)習(xí)

強化學(xué)習(xí)不同于監(jiān)督學(xué)習(xí),它將學(xué)習(xí)看作是試探評價過程,以"試錯" 的方式進行學(xué)習(xí),并與環(huán)境進行交互已獲得獎懲指導(dǎo)行為,以其作為評價。

此時系統(tǒng)靠自身的狀態(tài)和動作進行學(xué)習(xí),從而改進行動方案以適應(yīng)環(huán)境。

(提示:半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)比較偏向于深度學(xué)習(xí),因此在后續(xù)文章中也不會再提到。)

? 5 輸入/輸出空間、特征空間

在上面的場景中,每一杯酒稱作一個「樣本」,十杯酒組成一個樣本集。

酒精濃度、顏色深度等信息稱作「特征」。這十杯酒分布在一個「多維特征空間」中。

進入當(dāng)前程序的“學(xué)習(xí)系統(tǒng)”的所有樣本稱作「輸入」,并組成「輸入空間」。

在學(xué)習(xí)過程中,所產(chǎn)生的隨機變量的取值,稱作「輸出」,并組成「輸出空間」。

在有監(jiān)督學(xué)習(xí)過程中,當(dāng)輸出變量均為連續(xù)變量時,預(yù)測問題稱為回歸問題;當(dāng)輸出變量為有限個離散變量時,預(yù)測問題稱為分類問題。

? 6 過擬合與欠擬合

先來一句易懂的話:

  • 過擬合簡單來說就是模型把訓(xùn)練集的東西學(xué)得太精了,對未知的數(shù)據(jù)效果卻很差(打個比方就是考前你練得很不錯,給啥做過的題都說得出答案,但是考試的時候碰到新題了就做得很差)
  • 欠擬合就是模型學(xué)得很差,打個比方就是考前有題給你練,你也練了,但就是練不會,學(xué)不懂。

下面是具體介紹。

當(dāng)假設(shè)空間中含有不同復(fù)雜度的模型時,就要面臨模型選擇(model selection)的問題。

我們希望獲得的是在新樣本上能表現(xiàn)得很好的學(xué)習(xí)器。為了達到這個目的,我們應(yīng)該從訓(xùn)練樣本中盡可能學(xué)到適用于所有潛在樣本的"普遍規(guī)律",

我們認為假設(shè)空間存在這種"真"模型,那么所選擇的模型應(yīng)該逼近真模型。

擬合度可簡單理解為模型對于數(shù)據(jù)集背后客觀規(guī)律的掌握程度,模型對于給定數(shù)據(jù)集如果擬合度較差,則對規(guī)律的捕捉不完全,用作分類和預(yù)測時可能準(zhǔn)確率不高。

換句話說,當(dāng)模型把訓(xùn)練樣本學(xué)得太好了的時候,很可能已經(jīng)把訓(xùn)練樣本自身的一些特點當(dāng)作了所有潛在樣本的普遍性質(zhì),這時候所選的模型的復(fù)雜度往往會比真模型更高,這樣就會導(dǎo)致泛化性能下降。這種現(xiàn)象稱為過擬合(overfitting)??梢哉f,模型選擇旨在避免過擬合并提高模型的預(yù)測能力。

與過擬合相對的是欠擬合(underfitting),是指模型學(xué)習(xí)能力低下,導(dǎo)致對訓(xùn)練樣本的一般性質(zhì)尚未學(xué)
好。


虛線:針對訓(xùn)練數(shù)據(jù)集計算出來的分?jǐn)?shù),即針對訓(xùn)練數(shù)據(jù)集擬合的準(zhǔn)確性。

實線:針對交叉驗證數(shù)據(jù)集計算出來的分?jǐn)?shù),即針對交叉驗證數(shù)據(jù)集預(yù)測的準(zhǔn)確性。

  1. 左圖:一階多項式,欠擬合;
    ? 訓(xùn)練數(shù)據(jù)集的準(zhǔn)確性(虛線)和交叉驗證數(shù)據(jù)集的準(zhǔn)確性(實線)靠得很近,總體水平比較高。
    ? 隨著訓(xùn)練數(shù)據(jù)集的增加,交叉驗證數(shù)據(jù)集的準(zhǔn)確性(實線)逐漸增大,逐漸和訓(xùn)練數(shù)據(jù)集的準(zhǔn)確性(虛線)靠近,但其總體水平比較低,收斂在 0.88 左右。
    ? 訓(xùn)練數(shù)據(jù)集的準(zhǔn)確性也比較低,收斂在 0.90 左右。
    ? 當(dāng)發(fā)生高偏差時,增加訓(xùn)練樣本數(shù)量不會對算法準(zhǔn)確性有較大的改善。
  2. 中圖:三階多項式,較好地擬合了數(shù)據(jù)集;
    ? 訓(xùn)練數(shù)據(jù)集的準(zhǔn)確性(虛線)和交叉驗證數(shù)據(jù)集的準(zhǔn)確性(實線)靠得很近,總體水平比較高。
  3. 右圖:十階多項式,過擬合。
    ? 隨著訓(xùn)練數(shù)據(jù)集的增加,交叉驗證數(shù)據(jù)集的準(zhǔn)確性(實線)也在增加,逐漸和訓(xùn)練數(shù)據(jù)集的準(zhǔn)確性 (虛線)靠近,但兩者之間的間隙比較大。
    ? 訓(xùn)練數(shù)據(jù)集的準(zhǔn)確性很高,收斂在 0.95 左右。
    ? 交叉驗證數(shù)據(jù)集的準(zhǔn)確性值卻較低,最終收斂在 0.91 左右。

從圖中我們可以看出,對于復(fù)雜數(shù)據(jù),低階多項式往往是欠擬合的狀態(tài),而高階多項式則過分捕捉噪聲數(shù)據(jù)的分布規(guī)律,而噪聲之所以稱為噪聲,是因為其分布毫無規(guī)律可言,或者其分布毫無價值,因此就算高階多項式在當(dāng)前訓(xùn)練集上擬合度很高,但其捕捉到的無用規(guī)律無法推廣到新的數(shù)據(jù)集上。因此該模型在測試數(shù)據(jù)集上執(zhí)行過程將會有很大誤差,即模型訓(xùn)練誤差很小,但泛化誤差很大。

? 結(jié)束語

注意:這篇文章僅僅是我接下來的機器學(xué)習(xí)系列的第一篇,后續(xù)還會有更多的內(nèi)容。同時機器學(xué)習(xí)理論基礎(chǔ)當(dāng)然還有其他內(nèi)容要補充,之所以沒有放到這里是因為我打算結(jié)合KNN算法一起來補充。

如果大家有多的時間的話,也可以再去仔細看看我之前寫的那篇。


往期內(nèi)容回顧

?? 統(tǒng)計學(xué)習(xí)方法第二版 李航
? 我和關(guān)注我的前1000個粉絲“合影”啦!收集前1000個粉絲進行了一系列數(shù)據(jù)分析,收獲滿滿
? 分享一個超nice的數(shù)據(jù)分析實戰(zhàn)案例 ? “手把手”教學(xué),收藏等于學(xué)會
? 數(shù)據(jù)分析必須掌握的RFM模型是什么?一文搞懂如何利用RFM對用戶進行分類【附實戰(zhàn)講解】
? MySQL必須掌握的技能有哪些?超細長文帶你掌握MySQL【建議收藏】
? Hive必須了解的技能有哪些?萬字博客帶你掌握Hive??【建議收藏】
? 一文帶你了解Hive【詳細介紹】Hive與傳統(tǒng)數(shù)據(jù)庫有什么區(qū)別?

推薦關(guān)注的專欄

??????? 數(shù)據(jù)分析:分享數(shù)據(jù)分析實戰(zhàn)項目和常用技能整理

CSDN@報告,今天也有好好學(xué)習(xí)

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/119684.html

相關(guān)文章

  • 從小白程序員一路晉升為大廠高級技術(shù)專家我看過哪些書籍?(建議收藏)

    摘要:大家好,我是冰河有句話叫做投資啥都不如投資自己的回報率高。馬上就十一國慶假期了,給小伙伴們分享下,從小白程序員到大廠高級技術(shù)專家我看過哪些技術(shù)類書籍。 大家好,我是...

    sf_wangchong 評論0 收藏0
  • 寫給初入門/半路出家前端er

    摘要:半路出家的前端程序員應(yīng)該不在少數(shù),我也是其中之一。年,馮馮同事兼師兄看我寫太費勁,跟我說對面樓在找,問我要不要學(xué),說出來可能有點丟人,但是在那之前,我真得不知道什么是,什么是。 半路出家的前端程序員應(yīng)該不在少數(shù),我也是其中之一。 為何會走向前端 非計算機專業(yè)的我,畢業(yè)之后,就職于一家電力行業(yè)公司,做過設(shè)備調(diào)試、部門助理、測試,也寫過一段時間的QT,那三年的時間,最難過的不是工作忙不忙,...

    Cc_2011 評論0 收藏0
  • 我是如何入門機器學(xué)習(xí)

    摘要:在這里我分享下我個人入門機器學(xué)習(xí)的經(jīng)歷,希望能對大家能有所幫助。相關(guān)學(xué)習(xí)鏈接,,入門后的體驗在入門了機器學(xué)習(xí)之后,在實際工作中,絕大多數(shù)的情況下你并不需要去創(chuàng)造一個新的算法。 機器學(xué)習(xí)在很多眼里就是香餑餑,因為機器學(xué)習(xí)相關(guān)的崗位在當(dāng)前市場待遇不錯,但同時機器學(xué)習(xí)在很多人面前又是一座大山,因為發(fā)現(xiàn)它太難學(xué)了。在這里我分享下我個人入門機器學(xué)習(xí)的經(jīng)歷,希望能對大家能有所幫助。 PS:這篇文章...

    ShowerSun 評論0 收藏0

發(fā)表評論

0條評論

最新活動
閱讀需要支付1元查看
<