摘要:機(jī)器學(xué)習(xí)項(xiàng)目通常會(huì)有一個(gè)重要的學(xué)習(xí)者設(shè)計(jì)組成部分,從業(yè)者需要有一些專業(yè)知識(shí)。在機(jī)器學(xué)習(xí)中,這通常意味著,給定兩個(gè)具有相同訓(xùn)練錯(cuò)誤的分類器,其中較簡(jiǎn)單的分類器可能具有最低的測(cè)試錯(cuò)誤。機(jī)器學(xué)習(xí)通常應(yīng)用于觀察性數(shù)據(jù),其中預(yù)測(cè)變量不受學(xué)習(xí)者的控制。
摘要: 這是機(jī)器學(xué)習(xí)研究人員和從業(yè)人員所學(xué)到的12個(gè)關(guān)鍵經(jīng)驗(yàn)教訓(xùn)的總結(jié),包括避免陷阱,重點(diǎn)問題以及常見問題的答案。
論文解讀:華盛頓大學(xué)教授Pedro Domingos技術(shù)論文:機(jī)器學(xué)習(xí)中一些有用的知識(shí)(一)
論文地址:https://homes.cs.washington.e...
7:特征工程是關(guān)鍵有些機(jī)器學(xué)習(xí)項(xiàng)目成功了,有些失敗了,到底什么在其中起到關(guān)鍵作用?最容易使用的特征是最重要的因素。如果你有許多獨(dú)立的特征,每個(gè)特征都與類相關(guān)聯(lián),學(xué)習(xí)是很容易。另一方面,如果這個(gè)類是一個(gè)非常復(fù)雜的特征,你可能無法學(xué)習(xí)它。通常情況下,原始數(shù)據(jù)不是可以學(xué)習(xí)的形式,但是可以從中構(gòu)建特征。這通常是機(jī)器學(xué)習(xí)項(xiàng)目中的大部分工作所在,它通常也是最有趣的部分之一,其中直覺、創(chuàng)造力和“黑色藝術(shù)”與技術(shù)材料一樣重要。
初學(xué)者常常驚訝于機(jī)器學(xué)習(xí)項(xiàng)目實(shí)際進(jìn)行機(jī)器學(xué)習(xí)的時(shí)間太少。但是,如果考慮收集數(shù)據(jù),整合數(shù)據(jù),清理數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以及進(jìn)行特征設(shè)計(jì)的嘗試和錯(cuò)誤可能會(huì)花費(fèi)多少時(shí)間,你會(huì)發(fā)現(xiàn)這些才是真正費(fèi)時(shí)間的。此外,機(jī)器學(xué)習(xí)不是建立數(shù)據(jù)集和運(yùn)行模型的一步式過程,而是運(yùn)行模型、分析結(jié)果、修改數(shù)據(jù)或模型并重復(fù)的迭代過程。訓(xùn)練通常是最快速的部分,但那是因?yàn)槲覀円呀?jīng)掌握了很好的技巧!特征工程是最困難的,因?yàn)樗翘囟I(lǐng)域的,而訓(xùn)練是通用標(biāo)準(zhǔn)執(zhí)行的。但是,兩者之間沒有明顯的邊界。
8:更多數(shù)據(jù)擊敗更聰明的算法在大多數(shù)計(jì)算機(jī)科學(xué)中,這兩種主要的有限資源是時(shí)間和記憶。在機(jī)器學(xué)習(xí)中,還有第三個(gè):訓(xùn)練數(shù)據(jù)。在20世紀(jì)80年代,數(shù)據(jù)是稀缺的。今天往往是時(shí)間是寶貴的。大量的數(shù)據(jù)是可用的,但沒有足夠的時(shí)間來處理它,所以它沒有被使用。這導(dǎo)致了一個(gè)矛盾:盡管原則上更多的數(shù)據(jù)意味著可以學(xué)習(xí)更復(fù)雜的分類器,但在實(shí)踐中是更簡(jiǎn)單的分類器被使用,因?yàn)閺?fù)雜的分類器學(xué)習(xí)時(shí)間過長(zhǎng)。今天所有的研究者都想找到快速訓(xùn)練復(fù)雜分類器的方法,而且在這方面確實(shí)取得了顯著的進(jìn)展。
部分原因是使用更聰明的算法。所有學(xué)習(xí)者本質(zhì)上都是通過將附近的例子分組到同一個(gè)類來工作的,關(guān)鍵的區(qū)別在于“附近”。由于數(shù)據(jù)分布不均勻,訓(xùn)練可以產(chǎn)生廣泛不同的邊界,同時(shí)在重要的區(qū)域仍然做出相同的預(yù)測(cè)(具有大量訓(xùn)練實(shí)例的那些預(yù)測(cè)),大多數(shù)文本示例可能會(huì)出現(xiàn)。
通常,首先嘗試最簡(jiǎn)單的訓(xùn)練(例如,邏輯回歸之前的樸素貝葉斯,支持向量機(jī)之前的k-最近鄰居)。更復(fù)雜的訓(xùn)練是誘人的,但他們通常更難以使用,因?yàn)樗麄冇懈嗟膮?shù)需要調(diào)整以獲得更好的結(jié)果,并且他們的內(nèi)部更不透明。
模型可以分為兩種主要類型:表示具有固定大小的線性分類器,以及表示可隨數(shù)據(jù)增長(zhǎng)的線性分類器,如決策樹。固定大小的分類器只能利用這么多的數(shù)據(jù)。原則上可變大小的分類器可以在給定足夠數(shù)據(jù)的情況下學(xué)習(xí)任何函數(shù),但實(shí)際上,由于算法或計(jì)算成本的限制,它們可能不會(huì)。而且,由于維度的詛咒,沒有現(xiàn)有的數(shù)據(jù)量可能就足夠了。出于這些原因,那些充分利用數(shù)據(jù)和計(jì)算資源的算法,通常會(huì)表現(xiàn)得很好,只要你愿意付出努力。機(jī)器學(xué)習(xí)項(xiàng)目通常會(huì)有一個(gè)重要的學(xué)習(xí)者設(shè)計(jì)組成部分,從業(yè)者需要有一些專業(yè)知識(shí)。
9:模型不只是一個(gè)在機(jī)器學(xué)習(xí)的早期,每個(gè)人都有自己喜歡的模型,以及一些先驗(yàn)理由相信它的優(yōu)越性。大部分人努力嘗試很多參數(shù)的變化,并選擇了最好的一個(gè)。然后系統(tǒng)的經(jīng)驗(yàn)表明,不同應(yīng)用的最佳模型往往是不同,并且包含許多模型的系統(tǒng)開始出現(xiàn)。但是隨后研究人員注意到,如果不是選擇找到的最佳變體,我們可以結(jié)合了許多變體,結(jié)果會(huì)更好。并且對(duì)設(shè)計(jì)者而言沒有額外的工作量。
創(chuàng)建這樣的模型集合有一個(gè)通用的名詞:裝箱。我們只需通過重采樣生成隨機(jī)變化的訓(xùn)練集,分別學(xué)習(xí)分類器并結(jié)合,看看他們的性能即可。這是有效的,因?yàn)樗鼧O大地減少了方差,而偏差只是稍微增加。在訓(xùn)練過程中,訓(xùn)練樣例有權(quán)重,而且這些都是不同的,這樣每個(gè)新的分類器都會(huì)將重點(diǎn)放在前面往往出錯(cuò)的例子上。在堆疊中,單個(gè)分類器的輸出成為“更高層次”的輸入,該模型計(jì)算出如何最好地組合它們。
在Netflix獎(jiǎng)中,來自世界各地的團(tuán)隊(duì)競(jìng)相建立最佳視頻推薦系統(tǒng)。隨著比賽的進(jìn)行,團(tuán)隊(duì)發(fā)現(xiàn)他們通過將學(xué)習(xí)者與其他團(tuán)隊(duì)相結(jié)合而獲得最佳成績(jī)。獲勝者和亞軍都是由100多名學(xué)習(xí)者組成的合并隊(duì)伍,合并在一起進(jìn)一步提高了模型的性能。毫無疑問,這將是未來的趨勢(shì)。
10:簡(jiǎn)單并不意味著準(zhǔn)確奧卡姆的剃刀這個(gè)故事地指出,實(shí)體不應(yīng)該超出必要的倍增。在機(jī)器學(xué)習(xí)中,這通常意味著,給定兩個(gè)具有相同訓(xùn)練錯(cuò)誤的分類器,其中較簡(jiǎn)單的分類器可能具有最低的測(cè)試錯(cuò)誤。有關(guān)這一說法的證據(jù)經(jīng)常出現(xiàn)在文獻(xiàn)中,但事實(shí)上,它有很多反例,而“無免費(fèi)午餐”定理暗示它不可能是真實(shí)的。
我們?cè)谇耙徊糠挚吹揭粋€(gè)反例:模型集合。即使在訓(xùn)練誤差達(dá)到零之后,分類器的泛化誤差也會(huì)繼續(xù)提高。因此,與直覺相反,模型的參數(shù)數(shù)量與其過度擬合的傾向之間沒有必然的聯(lián)系。
相反,更復(fù)雜的觀點(diǎn)將復(fù)雜性等同于假設(shè)空間的大小,因?yàn)檩^小的空間允許假設(shè)由較短的代碼表示。如上面關(guān)于理論保證部分的界限可能會(huì)被視為暗示更短的假設(shè)。這可以通過將更短的代碼分配給我們有一些先驗(yàn)偏好的空間中的假設(shè)來進(jìn)一步細(xì)化。但將此視為準(zhǔn)確性與簡(jiǎn)單性之間權(quán)衡的“證明”是循環(huán)推理:我們通過設(shè)計(jì)使我們喜歡的假設(shè)更簡(jiǎn)單,如果它們準(zhǔn)確,那是因?yàn)槲覀兊钠檬菧?zhǔn)確的,而不是因?yàn)榧僭O(shè)“簡(jiǎn)單”代表了我們選擇。
11:可描述并不意味著可以學(xué)習(xí)本質(zhì)上,所有可變規(guī)模模型的描述都具有形式的相關(guān)定理:“使用這種描述,每個(gè)函數(shù)都可以被描述或近似地描述”。然而,僅僅因?yàn)橐粋€(gè)函數(shù)可以描述,并不意味著它可以被學(xué)習(xí)。例如,標(biāo)準(zhǔn)決策樹模型不能學(xué)習(xí)含有更多葉子的樹干。在連續(xù)的空間中,使用一組固定的基元描述甚至簡(jiǎn)單的函數(shù)往往需要無數(shù)的組件。
此外,如果假設(shè)空間具有許多評(píng)估函數(shù)的局部最優(yōu)值(通常情況如此),則學(xué)習(xí)者可能無法找到真正的函數(shù),即使它是可描述的。給定有限的數(shù)據(jù)、時(shí)間和記憶,標(biāo)準(zhǔn)模型只能學(xué)習(xí)所有可能函數(shù)的一小部分,而這些子集對(duì)于具有不同表述的模型是不同的。因此,關(guān)鍵問題不是“能否描述出來?
12:相關(guān)并不意味著因果關(guān)系相關(guān)性并不意味著因果關(guān)系。但是,盡管我們討論過的那種模型只能學(xué)習(xí)相關(guān)性,但他們的結(jié)果往往被視為代表因果關(guān)系。這不是錯(cuò)了嗎?如果是這樣,那么人們?yōu)槭裁催@樣做呢?
通常情況下,訓(xùn)練預(yù)測(cè)模型的目標(biāo)是將它們用作行動(dòng)指南。如果我們發(fā)現(xiàn)啤酒和尿布經(jīng)常在超市買到,那么也許把啤酒放在尿布部分旁邊會(huì)增加銷售。但實(shí)際上實(shí)驗(yàn)很難說清楚。機(jī)器學(xué)習(xí)通常應(yīng)用于觀察性數(shù)據(jù),其中預(yù)測(cè)變量不受學(xué)習(xí)者的控制。一些學(xué)習(xí)算法可能潛在地從觀測(cè)數(shù)據(jù)中提取因果信息,但它們的適用性相當(dāng)有限。另一方面,相關(guān)性是潛在因果關(guān)系的標(biāo)志,我們可以用它作為進(jìn)一步調(diào)查的指導(dǎo)。
結(jié)論像任何學(xué)科一樣,機(jī)器學(xué)習(xí)有很多的“民間智慧”,雖然不是100%正確,但對(duì)成功至關(guān)重要。多明戈斯教授的論文總結(jié)了一些最重要的內(nèi)容。學(xué)習(xí)更多知識(shí)是他的書The Master Algorithm,這是一個(gè)非技術(shù)性的機(jī)器學(xué)習(xí)入門。他還教授在線機(jī)器學(xué)習(xí)課程,可以在這里查看。
文章原標(biāo)題《12-useful-things-know-about-machine-learning》,
譯者:虎說八道,審校:袁虎。
詳情請(qǐng)閱讀原文
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/19717.html
摘要:機(jī)器學(xué)習(xí)初學(xué)者最常犯的錯(cuò)誤是測(cè)試訓(xùn)練數(shù)據(jù),并有成功的幻覺。機(jī)器學(xué)習(xí)中的每個(gè)人都知道過度擬合,但它有很多形式,并不是很明顯。事實(shí)上,理論與實(shí)踐的密切相互作用是機(jī)器學(xué)習(xí)多年來取得如此巨大進(jìn)步的主要原因之一。 摘要: 這是機(jī)器學(xué)習(xí)研究人員和從業(yè)人員所學(xué)到的12個(gè)關(guān)鍵經(jīng)驗(yàn)教訓(xùn)的總結(jié),包括避免陷阱,重點(diǎn)問題以及常見問題的答案。 showImg(https://segmentfault.com/i...
摘要:我的核心觀點(diǎn)是盡管我提出了這么多問題,但我不認(rèn)為我們需要放棄深度學(xué)習(xí)。對(duì)于層級(jí)特征,深度學(xué)習(xí)是非常好,也許是有史以來效果較好的。認(rèn)為有問題的是監(jiān)督學(xué)習(xí),并非深度學(xué)習(xí)。但是,其他監(jiān)督學(xué)習(xí)技術(shù)同病相連,無法真正幫助深度學(xué)習(xí)。 所有真理必經(jīng)過三個(gè)階段:第一,被嘲笑;第二,被激烈反對(duì);第三,被不證自明地接受。——叔本華(德國(guó)哲學(xué)家,1788-1860)在上篇文章中(參見:打響新年第一炮,Gary M...
摘要:機(jī)器學(xué)習(xí)初學(xué)者中最常見的錯(cuò)誤就是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行測(cè)試并自以為大獲成功。綜上來看,機(jī)器學(xué)習(xí)需要知識(shí)這點(diǎn)并不奇怪。機(jī)器學(xué)習(xí)更像是種田,讓大自然完成大部分的工作。這個(gè)問題被稱為過擬合,是機(jī)器學(xué)習(xí)中的難題。 機(jī)器學(xué)習(xí)算法可以通過學(xué)習(xí)就可以弄清楚如何去執(zhí)行一些重要的任務(wù)。在手動(dòng)編程不可行的情況下,這種方法通常既可行又經(jīng)濟(jì)有效。隨著可獲取的數(shù)據(jù)在逐步增多,越來越多更加復(fù)雜的問題可以用機(jī)器學(xué)習(xí)來解決。...
閱讀 2765·2021-11-22 13:54
閱讀 2701·2021-10-14 09:42
閱讀 4047·2021-09-28 09:47
閱讀 2172·2021-09-03 10:28
閱讀 1217·2021-07-26 23:38
閱讀 2568·2019-08-30 15:54
閱讀 2648·2019-08-29 16:35
閱讀 1438·2019-08-29 15:42