成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

深度學(xué)習(xí)是如何改變數(shù)據(jù)科學(xué)范式的?

XFLY / 2542人閱讀

摘要:在最近的會(huì)議上,吳恩達(dá)分享了關(guān)于深度學(xué)習(xí)的一些看法。深度學(xué)習(xí)較大的優(yōu)勢(shì)在于它的規(guī)模,從吳恩達(dá)總結(jié)的下圖可以看出當(dāng)數(shù)據(jù)量增加時(shí),深度學(xué)習(xí)模型性能更好。深度學(xué)習(xí)模型如此強(qiáng)大的另一個(gè)原因,是端到端的學(xué)習(xí)方式。然而,深度學(xué)習(xí)卻使它有了一點(diǎn)變化。

在最近的 NIPS 2016 會(huì)議上,吳恩達(dá)分享了關(guān)于深度學(xué)習(xí)的一些看法。我們?cè)诖俗鲆粋€(gè)整理。

?

深度學(xué)習(xí)較大的優(yōu)勢(shì)在于它的規(guī)模,從吳恩達(dá)總結(jié)的下圖可以看出:

當(dāng)數(shù)據(jù)量增加時(shí),深度學(xué)習(xí)模型性能更好。除此之外,神經(jīng)網(wǎng)絡(luò)越大(即層數(shù)更多,更復(fù)雜),它在大數(shù)據(jù)集下表現(xiàn)的性能就越好,這不同于傳統(tǒng)模型,傳統(tǒng)模型的性能一旦達(dá)到一定水平,即使向模型添加數(shù)據(jù)或增加模型復(fù)雜度,也不一定能提升其性能。

深度學(xué)習(xí)模型如此強(qiáng)大的另一個(gè)原因,是端到端的學(xué)習(xí)方式。傳統(tǒng)模型中特征工程(它包括兩個(gè)方面:特征選擇和特征提?。┓浅V匾@?,能夠?qū)θ说穆曇暨M(jìn)行轉(zhuǎn)錄的模型,常常需要對(duì)輸入進(jìn)行多個(gè)中間步驟的處理,如找到音素,正確分段,以及對(duì)片段進(jìn)行單詞匹配。

深度學(xué)習(xí)模型通常不需要特征工程。你可以端到端地訓(xùn)練他們,只需要給模型輸入大量例子即可。然而,工程師們?cè)跇?gòu)建模型時(shí)也還是要努力的,只不過(guò)傳統(tǒng)模型側(cè)重于特征提取,而深度學(xué)習(xí)模型則側(cè)重于模型的架構(gòu)。數(shù)據(jù)科學(xué)家需要不斷的嘗試神經(jīng)元類型、神經(jīng)網(wǎng)絡(luò)的層數(shù)以及連接的方式等。

構(gòu)建模型的難點(diǎn)

深度學(xué)習(xí)模型的構(gòu)建是一個(gè)很大的挑戰(zhàn)任務(wù)。為了使模型能有較好的性能,在構(gòu)建的過(guò)程中需要做很多決策。一旦走上了錯(cuò)誤的路線,就將浪費(fèi)很多時(shí)間和金錢。那么在改善模型性能時(shí),數(shù)據(jù)科學(xué)家如何才能做出明智的決策,給出下一步操作呢?吳恩達(dá)向我們展示了他用于開發(fā)模型的經(jīng)典決策框架,不過(guò)這次他將其擴(kuò)展到了其他案例上。

讓我們從頭開始:在分類任務(wù)中(例如,根據(jù)掃描圖像做出診斷),我們可以從以下三方面得到一些關(guān)于模型錯(cuò)誤來(lái)源的想法:

人類專家

訓(xùn)練集

交叉驗(yàn)證(CV)集(也稱為開發(fā)集)

一旦我們了解這些錯(cuò)誤的來(lái)源,數(shù)據(jù)科學(xué)家就可以遵循基本的工作流程,在模型構(gòu)建中做出有效決策。那么,第一個(gè)問(wèn)題是你的訓(xùn)練集錯(cuò)誤率高嗎?如果是,那么模型還不夠好,你可能需要換一個(gè)架構(gòu),讓模型更復(fù)雜一些(例如,更大的神經(jīng)網(wǎng)絡(luò)),或者需要更長(zhǎng)時(shí)間的訓(xùn)練。重復(fù)這個(gè)過(guò)程,直到 bias 降低。

一旦訓(xùn)練集錯(cuò)誤率降低,就可以著眼于降低 CV 集錯(cuò)誤率。如果 CV 集錯(cuò)誤率很大的話,variance 也會(huì)很高,這就意味著需要更多的數(shù)據(jù),更多的正則化或新的模型架構(gòu)。剩下的事情就是重復(fù),直到模型在訓(xùn)練集和 CV 集中均有較好性能。

所有這些都不是新東西。然而,深度學(xué)習(xí)卻使它有了一點(diǎn)變化。如果你的模型不是足夠好,那么一個(gè)辦法就是:增加你的數(shù)據(jù)或使你的模型更復(fù)雜。在傳統(tǒng)模型中,使用正則化來(lái)尋找折中的方法,或者是生成新的特征,然而這并不總是容易的。但是通過(guò)深度學(xué)習(xí),我們有了更好的工具來(lái)減少這兩個(gè)錯(cuò)誤。

人工數(shù)據(jù)集下的 bias/variance 調(diào)優(yōu)過(guò)程

如果大規(guī)模數(shù)據(jù)集的獲取不怎么容易的話,替代方法是構(gòu)建你自己的訓(xùn)練數(shù)據(jù)集。就拿語(yǔ)音識(shí)別系統(tǒng)的訓(xùn)練來(lái)說(shuō),你可以通過(guò)向同一語(yǔ)音樣本添加噪聲的方式來(lái)創(chuàng)建人工數(shù)據(jù)集。然而,這樣構(gòu)建的訓(xùn)練集與真實(shí)數(shù)據(jù)集的分布會(huì)不相同。這種情況下,就需要考慮 bias/variance 折中策略。

想象一下,對(duì)語(yǔ)音識(shí)別模型,我們有50,000小時(shí)的生成數(shù)據(jù),但只有100小時(shí)的真實(shí)數(shù)據(jù)。在這種情況下,較好的方法是從同一分布中獲取 CV 集和測(cè)試集。因此,將生成數(shù)據(jù)集作為訓(xùn)練集,將真實(shí)數(shù)據(jù)集分成 CV 集和測(cè)試集兩部分。否則,CV 集和測(cè)試集將有不同的分布,當(dāng)模型“完成”時(shí),這個(gè)問(wèn)題就會(huì)出現(xiàn)。由于問(wèn)題是由 CV 集引起的,因此它應(yīng)該盡可能地接近真實(shí)數(shù)據(jù)集。

在實(shí)踐中,吳恩達(dá)建議將人工數(shù)據(jù)集分為兩部分:訓(xùn)練集和 CV 集(只占很小一部分)。這樣,我們將測(cè)量以下錯(cuò)誤:

(1)和(2)之間的間隔是 bias,(2)和(3)之間是 variance,(3)和(4)之間是由于數(shù)據(jù)分布不匹配,(4)和(5)之間是因?yàn)檫^(guò)擬合。

考慮到這一點(diǎn),先前的工作流程應(yīng)該這樣修改:

如果分布誤差很大,那么修改訓(xùn)練數(shù)據(jù)分布使其盡可能與測(cè)試數(shù)據(jù)相似。正確理解 bias-variance 問(wèn)題,可以在機(jī)器學(xué)習(xí)的應(yīng)用中取得更快進(jìn)展。

人類較高水平

了解人類的較高水平是非常重要的,因?yàn)檫@將指導(dǎo)如何做決策。事實(shí)證明,一旦模型超過(guò)了人類的性能,改進(jìn)將會(huì)變得困難,因?yàn)槲覀冊(cè)絹?lái)越接近“完美模型”——即沒有模型可以做得更好(“貝葉斯模型”)。但傳統(tǒng)模式不會(huì)有這樣的問(wèn)題,因?yàn)樗茈y在實(shí)現(xiàn)超人類水平的性能,但在深度學(xué)習(xí)中卻很常見。

因此,當(dāng)構(gòu)建模型時(shí),應(yīng)以人類較高水平的錯(cuò)誤率(這將是“貝葉斯模型”的代表)作參考。例如,如果一個(gè)醫(yī)生團(tuán)隊(duì)勝過(guò)一個(gè)專家團(tuán)隊(duì),那么就使用醫(yī)生團(tuán)隊(duì)的錯(cuò)誤率。

我如何成為一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家?

多多地閱讀論文和重復(fù)實(shí)驗(yàn)結(jié)果是成為一個(gè)優(yōu)秀數(shù)據(jù)科學(xué)家的較佳也是最可靠的路徑。這是吳恩達(dá)在他的學(xué)生身上看到的一種模式,也是我個(gè)人覺得不錯(cuò)的模式。

即使你做的全是“dirty work”——清潔數(shù)據(jù),調(diào)整參數(shù),調(diào)試,優(yōu)化數(shù)據(jù)庫(kù)等,也不要停止閱讀論文和復(fù)現(xiàn)模型,因?yàn)閺?fù)現(xiàn)別人的工作最終會(huì)帶來(lái)原創(chuàng)的思想。

本文作者 Manuel Sánchez Hernández 目前是 Schibsted 的一名數(shù)據(jù)科學(xué)家,就職于 Schibsted 媒體集團(tuán)。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4460.html

相關(guān)文章

  • 第四范式戴文淵:機(jī)器學(xué)習(xí)教科書 7 大經(jīng)典問(wèn)題

    摘要:針對(duì)這個(gè)問(wèn)題,第四范式創(chuàng)始人首席執(zhí)行官戴文淵近日就在公司內(nèi)部分享上,向大家介紹了機(jī)器學(xué)習(xí)教材中的七個(gè)經(jīng)典問(wèn)題。所以今天我就想和大家分享一下機(jī)器學(xué)習(xí)教材中的一些經(jīng)典問(wèn)題,希望對(duì)大家今后的工作和學(xué)習(xí)有所幫助。 *如果希望了解機(jī)器學(xué)習(xí),或者已經(jīng)決定投身機(jī)器學(xué)習(xí),你會(huì)第一時(shí)間找到各種教材進(jìn)行充電,同時(shí)在心中默認(rèn):書里講的是牛人大神的畢生智慧,是正確無(wú)誤的行動(dòng)指南,認(rèn)真學(xué)習(xí)就能獲得快速提升。但實(shí)...

    DevTTL 評(píng)論0 收藏0
  • 深度學(xué)習(xí)否以蠻力取勝?

    摘要:第一條是關(guān)于深度學(xué)習(xí)的晚宴,討論的是背后的數(shù)學(xué)支撐,以及未來(lái)的方向。大數(shù)據(jù)與深度學(xué)習(xí)是一種蠻力盡管當(dāng)場(chǎng)說(shuō)了很多觀點(diǎn),但是最核心的還是援引了愛因斯坦關(guān)于上帝的隱喻。不過(guò),我自己并不同意深度學(xué)習(xí)必須等同于機(jī)器蠻力。 Vladimir Vapnik 介紹:Vladimir Vapnik 被稱為統(tǒng)計(jì)學(xué)習(xí)理論之父,他出生于俄羅斯,1990 年底移居美國(guó),在美國(guó)貝爾實(shí)驗(yàn)室一直工作到 2002 年,之后加...

    CarlBenjamin 評(píng)論0 收藏0
  • 深度學(xué)習(xí)教父Hinton專訪,AI已跨越重要分水嶺

    摘要:福布斯昨日刊登專訪。生于英國(guó),被認(rèn)為是機(jī)器學(xué)習(xí)的先鋒,現(xiàn)在是多倫多大學(xué)教授,谷歌高級(jí)研究員。但是,正如我所說(shuō),已經(jīng)跨越過(guò)了這一分水嶺。 《福布斯》昨日刊登Geoff Hinton專訪。游走在學(xué)術(shù)和產(chǎn)業(yè)的AI大神Hinton談到了自己研究興趣的起源、在多倫多大學(xué)和谷歌所做的研究工作以及發(fā)起的私人俱樂部 NCAP。 在采訪中,Hinton談到,現(xiàn)在計(jì)算能力和數(shù)據(jù)的發(fā)展讓AI獲得巨大進(jìn)步,并且在很...

    wayneli 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<