摘要:舉個(gè)例子吧,看下面這三種描述這三組描述中,有兩個(gè)表示的含義相同,你能找出那個(gè)含義不同的嗎大多數(shù)美國(guó)人都不難解決這個(gè)問(wèn)題,因?yàn)椋莻€(gè)常識(shí)。但是,一個(gè)對(duì)美國(guó)并不熟悉的人,可能就不知道答案是什么了。
深度學(xué)習(xí)是一項(xiàng)龐大又復(fù)雜的工程,在建立深度學(xué)習(xí)模型時(shí),走進(jìn)死胡同被迫從頭再來(lái)似乎是常事。
近日,Semantics3網(wǎng)站的聯(lián)合創(chuàng)始人Govind Chandrasekhar在官方博客上發(fā)表了一篇文章,講述了程序員在解決深度學(xué)習(xí)問(wèn)題時(shí)的應(yīng)該自問(wèn)的五個(gè)問(wèn)題。
Semantics3是一家2012年成立的數(shù)據(jù)科學(xué)初創(chuàng)公司,它創(chuàng)建了一個(gè)數(shù)據(jù)庫(kù),跟蹤產(chǎn)品在網(wǎng)上的銷售過(guò)程,為零售商提供數(shù)據(jù)。對(duì)于Govind Chandrasekhar寫的這篇文章,量子位全文翻譯如下:
研究數(shù)據(jù)科學(xué)是一件悲喜交加的事情。喜在當(dāng)你偶然的發(fā)現(xiàn)提高了算法的性能,可能讓你擁有持久的興奮感;悲在你會(huì)經(jīng)常發(fā)現(xiàn)自己站在一條單行道的盡頭,苦苦探索到底哪里出了問(wèn)題。
在這篇文章里,我將詳述走過(guò)無(wú)數(shù)條深度學(xué)習(xí)死路后,得到的五個(gè)教訓(xùn)。在處理新問(wèn)題或新方法前,我都會(huì)用想想下面這五個(gè)問(wèn)題。
問(wèn)題一:
先不管神經(jīng)網(wǎng)絡(luò),一個(gè)沒(méi)有先驗(yàn)知識(shí)、只受過(guò)你的數(shù)據(jù)集訓(xùn)練的人能解決這個(gè)問(wèn)題嗎?
這個(gè)問(wèn)題對(duì)解決監(jiān)督學(xué)習(xí)的困境尤為受用——這些問(wèn)題的典型前提是,一個(gè)小的高質(zhì)量數(shù)據(jù)集(比如N個(gè)實(shí)體)可以幫助你的模型近似得到一個(gè)潛在的功能,之后泛化到包含1000N個(gè)實(shí)體的整個(gè)數(shù)據(jù)集。
這些方法的好處在于,人類只需要研究很小部分?jǐn)?shù)據(jù)就可以了,機(jī)器會(huì)學(xué)會(huì)把它運(yùn)用到大范圍的示例中。
但是在現(xiàn)實(shí)世界中,問(wèn)題不總是含有可以被優(yōu)先識(shí)別的模式。人們利用外部常識(shí)來(lái)解決的認(rèn)知挑戰(zhàn)比我們意識(shí)到的還要多,這經(jīng)常導(dǎo)致我們錯(cuò)誤地期望我們的算法在沒(méi)有常識(shí)的情況下能夠解決同樣的挑戰(zhàn)。
舉個(gè)例子吧,看下面這三種描述:
Pets First Arkansas Dog Jersey, X-Small, Pink
Pets First Arizona Dog Jersey, X-Small, Pink
Pets First AR Dog Jersey, X-Small, Pink
這三組描述中,有兩個(gè)表示的含義相同,你能找出那個(gè)含義不同的嗎?
大多數(shù)美國(guó)人都不難解決這個(gè)問(wèn)題,因?yàn)锳R=Arkansas,AR!=Arizona是個(gè)常識(shí)。但是,一個(gè)對(duì)美國(guó)并不熟悉的人,可能就不知道答案是什么了。
你會(huì)發(fā)現(xiàn),你創(chuàng)建的神經(jīng)網(wǎng)絡(luò)也沒(méi)有能力解決這個(gè)問(wèn)題,因?yàn)樵谡Z(yǔ)言應(yīng)用這方面,沒(méi)有特定的縮寫規(guī)則可以供神經(jīng)網(wǎng)絡(luò)去模仿。當(dāng)然指定了Arkansas等同于AR的情況除外。
類似這樣的問(wèn)題還有很多(可能在一開始你并不理解這些問(wèn)題),并且它們?cè)趯?shí)際工作中還經(jīng)常出現(xiàn)。回頭審視之前建造的神經(jīng)網(wǎng)絡(luò),并且明確需要補(bǔ)充的新知識(shí)是非常困難的。所以,在構(gòu)建神經(jīng)網(wǎng)絡(luò)時(shí),要及時(shí)跳出自己的思維定式。
問(wèn)題二:
你構(gòu)建的神經(jīng)網(wǎng)絡(luò)能通過(guò)正確的視角理解你的數(shù)據(jù)嗎?
假設(shè)地區(qū)的縮寫始終是名字的前兩個(gè)字母,同時(shí)這個(gè)縮寫不會(huì)重復(fù)。那么,我們?cè)賮?lái)用不同的示例回看剛剛的匹配問(wèn)題:
“Pets First Arkansas Dog Jersey, X-Small”
“Pets First Arkansas Dog Jersey, Extra-Small”
“Pets First AR Dog Jersey, X-Small”
“Pets First Arkansas Dog Jersey, Large”
“Pets First MA Dog Jersey, Large”
你的目標(biāo)是建立一個(gè)神經(jīng)網(wǎng)絡(luò)用于識(shí)別1、2、3等價(jià)而4、5不同。這個(gè)任務(wù)是在考驗(yàn)神經(jīng)網(wǎng)絡(luò)對(duì)“大小”這個(gè)概念理解——它們是否知道X-Small=Extra-Small ?也是在考驗(yàn)它對(duì)縮寫的理解能力,比如Arkansas=ARkansas=AR因?yàn)榍皟蓚€(gè)字母相同,而Arkansas不等于MA,等等。
你可能會(huì)通過(guò)Word2Vec來(lái)構(gòu)建一個(gè)嵌入空間,將 X-Small映射為Extra-Small來(lái)解決這個(gè)問(wèn)題。
盡管這種方法是一個(gè)標(biāo)準(zhǔn)解法,但可能你會(huì)妨礙神經(jīng)網(wǎng)絡(luò)找到你想讓它學(xué)習(xí)的內(nèi)容。如果把AR換成小寫的ar,對(duì)人類來(lái)說(shuō)就比較難識(shí)別了,我們會(huì)糾結(jié)ar到底指的的Arizona還是are。
同樣,如果你選擇建立詞匯的嵌入空間,有效地將每一個(gè)單詞映射到的標(biāo)記,那么你就掐斷了神經(jīng)網(wǎng)絡(luò)理解組成字符“ARkansans”的機(jī)會(huì)。
這種模糊網(wǎng)絡(luò)問(wèn)題在你構(gòu)建網(wǎng)絡(luò)時(shí)經(jīng)常出現(xiàn),尤其是在建立考慮不同類型的輸入信號(hào)的模型時(shí)。
問(wèn)題三:
你的網(wǎng)絡(luò)是在鉆你訓(xùn)練集里的牛角尖,還是幫你解決手頭的問(wèn)題?
假設(shè)你正在構(gòu)建一個(gè)二分的圖像分類器,來(lái)檢查文檔中的文本是計(jì)算機(jī)打印的還是手寫的。為了構(gòu)建計(jì)算機(jī)打印文本的訓(xùn)練數(shù)據(jù)集,你用電腦上的軟件直接生成了帶文字的jpeg圖片;為了獲取手寫文本的樣本,你把這些jpeg圖片發(fā)送到做數(shù)據(jù)標(biāo)注的公司,讓他們把這些圖片轉(zhuǎn)錄成文字,并將掃描成jpeg文件。
之后,就可以運(yùn)行你的分類器了。不要高興得太早,雖然目前它的訓(xùn)練準(zhǔn)確率已經(jīng)超過(guò)了99%,但當(dāng)我們用實(shí)際場(chǎng)景來(lái)測(cè)試時(shí),分類器表現(xiàn)并不好。這是為什么呢?
你構(gòu)建的神經(jīng)網(wǎng)絡(luò)可能帶有簡(jiǎn)單的指示性偏差,掃描手寫的圖片可能帶有灰白的背景色,而軟件生成的JPEG是純白色的背景。你的神經(jīng)網(wǎng)絡(luò)為了解決你交給它的問(wèn)題,可能并沒(méi)有去分析內(nèi)容、上下文、形狀和顏色等要素,而是只抓住了背景色的這一點(diǎn)微小差別。
需要記住的是,你的神經(jīng)網(wǎng)絡(luò)永遠(yuǎn)都不會(huì)明白你的大方向,它所做的就是基于手頭的目標(biāo)和數(shù)據(jù),以最簡(jiǎn)單的方式盡快給出一個(gè)答案。
徹底審查你的數(shù)據(jù)集,消除可供神經(jīng)網(wǎng)絡(luò)鉆牛角尖的特征,可以節(jié)約成本和時(shí)間。
問(wèn)題四:
你的網(wǎng)絡(luò)有兄弟問(wèn)題可以為它提供支持嗎?
在特定領(lǐng)域的問(wèn)題上,諸如GloVe和Inception之類的預(yù)先訓(xùn)練模型可能并不好用。這將迫使你開始隨機(jī)初始化神經(jīng)網(wǎng)絡(luò),也就意味著可能經(jīng)過(guò)好幾天的訓(xùn)練,你還不知道自己的模型效果如何。
你的模型可能還面臨著一個(gè)問(wèn)題:數(shù)據(jù)集太小了或者質(zhì)量太差了,即使通過(guò)旋轉(zhuǎn)、變形等手段擴(kuò)充之后,也還是達(dá)不到訓(xùn)練的要求。
在這種情況下,尋找它的兄弟問(wèn)題可能是個(gè)解決辦法。但要注意,這些問(wèn)題需要符合兩個(gè)標(biāo)準(zhǔn):
它們不能和你手頭的數(shù)據(jù)集有同質(zhì)量和數(shù)量的問(wèn)題。
它們的神經(jīng)網(wǎng)絡(luò)需要有一組層,能捕捉到你的模型所需的概念。
問(wèn)題五:
你的網(wǎng)絡(luò)是做不到還是懶?如果它懶,如何逼迫它學(xué)習(xí)?
假如你是一個(gè)繪畫外行,讓你猜測(cè)三幅昂貴的繪畫作品價(jià)格。有三個(gè)可用信息可供你查看——作品的年限、作品十年前的價(jià)格和這幅畫的高分辨率圖像。
在沒(méi)有經(jīng)過(guò)前期訓(xùn)練的情況下,讓你完成這個(gè)任務(wù),給出盡可能正確的答案,你會(huì)怎么辦?
你是會(huì)報(bào)名參加一個(gè)為期兩月的繪畫課程,來(lái)學(xué)習(xí)復(fù)雜的繪畫技藝,還是會(huì)考慮用作品的年限和十年前的價(jià)格做一個(gè)方程來(lái)猜測(cè)價(jià)格?
即使你能意識(shí)到理想的價(jià)格方程式包含這三種信息的組合,但你還是很愿意接受一個(gè)懶惰的選項(xiàng):、用兩種信息來(lái)進(jìn)行預(yù)測(cè)。雖然這個(gè)選項(xiàng)不是最優(yōu)解,但也是在能接受范圍的。你會(huì)更傾向只依賴容易理解和表達(dá)的信息。
在用機(jī)器學(xué)習(xí)解決真實(shí)問(wèn)題時(shí),如果你的模型有多個(gè)輸入信息,它們的復(fù)雜度差異很大時(shí),也會(huì)遇到這個(gè)問(wèn)題。對(duì)這樣的模型進(jìn)行訓(xùn)練,幾個(gè)周期之后,你可能會(huì)發(fā)現(xiàn)你的模型好像已經(jīng)接近完成,并且拒絕進(jìn)一步學(xué)習(xí)。
在這種情況下,較好的解決方法是去掉一個(gè)輸入項(xiàng),看整體指標(biāo)的變化。如果一個(gè)輸入項(xiàng)和結(jié)果相關(guān),去掉了之后卻對(duì)結(jié)果毫無(wú)影響,你就應(yīng)該考慮多帶帶用這個(gè)輸入項(xiàng)來(lái)訓(xùn)練模型,當(dāng)模型學(xué)會(huì)了依據(jù)這個(gè)輸入項(xiàng)做判斷之后,再逐漸將其余的信息也加入進(jìn)來(lái)。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4548.html
摘要:發(fā)現(xiàn)他們問(wèn)題的技巧很糟糕,導(dǎo)致解決問(wèn)題的效率好低。卻發(fā)現(xiàn)百度上的文章都在粘貼復(fù)制,好幾個(gè)網(wǎng)站上的都是同一篇文章。你思考得差不多了,百度上的資料你也有了一定的了解。你想想,如果思考都沒(méi)思考過(guò),別人隨便百度都能找到你問(wèn)題的答案,會(huì)不會(huì)略顯尷尬。 前語(yǔ) 筆者不是什么文人,沒(méi)什么語(yǔ)言功底,語(yǔ)言簡(jiǎn)陋,還望不要見笑。寫這篇文章,是因?yàn)橹坝行覔?dān)當(dāng)小組技術(shù)指導(dǎo),被別人問(wèn)過(guò)問(wèn)題。發(fā)現(xiàn)他們問(wèn)題的技巧很糟...
摘要:有幾次,人工智能死在人工神經(jīng)網(wǎng)絡(luò)上。在過(guò)去十年中,他一直在舉辦為期一周的有關(guān)神經(jīng)網(wǎng)絡(luò)的暑期學(xué)校,我曾經(jīng)拜訪過(guò)。神經(jīng)網(wǎng)絡(luò)壓縮信息之后,這些信息無(wú)法復(fù)原。 魔法已經(jīng)進(jìn)入這個(gè)世界。如今,許多美國(guó)人口袋里裝著薄薄的黑色平板,這些機(jī)器接入遙遠(yuǎn)的數(shù)字云和衛(wèi)星,它們解碼語(yǔ)言、通過(guò)攝像頭觀察并標(biāo)記現(xiàn)實(shí),挖掘個(gè)人數(shù)據(jù),它們以某種方式理解、預(yù)測(cè)著我們的心愿。傾聽、幫助著人類。因?yàn)榕c多倫多大學(xué)有個(gè)約會(huì),這個(gè)夏天,...
摘要:我仍然用了一些時(shí)間才從神經(jīng)科學(xué)轉(zhuǎn)向機(jī)器學(xué)習(xí)。當(dāng)我到了該讀博的時(shí)候,我很難在的神經(jīng)科學(xué)和的機(jī)器學(xué)習(xí)之間做出選擇。 1.你學(xué)習(xí)機(jī)器學(xué)習(xí)的歷程是什么?在學(xué)習(xí)機(jī)器學(xué)習(xí)時(shí)你最喜歡的書是什么?你遇到過(guò)什么死胡同嗎?我學(xué)習(xí)機(jī)器學(xué)習(xí)的道路是漫長(zhǎng)而曲折的。讀高中時(shí),我興趣廣泛,大部分和數(shù)學(xué)或科學(xué)沒(méi)有太多關(guān)系。我用語(yǔ)音字母表編造了我自己的語(yǔ)言,我參加了很多創(chuàng)意寫作和文學(xué)課程。高中畢業(yè)后,我進(jìn)了大學(xué),盡管我不想去...
摘要:導(dǎo)語(yǔ)本期訪談對(duì)象小猴機(jī)器人,清華人工智能專業(yè)博士在讀?;蛟S因?yàn)槌砷L(zhǎng)于廣袤的內(nèi)蒙,小猴身上帶著大山和草原一般的灑脫與樂(lè)觀,在他鐘愛的無(wú)人車上,印上了一個(gè)美好的我們的征途是星辰大海。技術(shù)人攻略除了規(guī)則挖掘,人工智能遇到的難題還 showImg(https://segmentfault.com/img/bVc1yA); 文:Gracia,攝影:周振邦 (本文為原創(chuàng)內(nèi)容,部分或全文轉(zhuǎn)載均需經(jīng)作...
閱讀 1461·2021-11-24 09:39
閱讀 3636·2021-09-29 09:47
閱讀 1581·2021-09-29 09:34
閱讀 3081·2021-09-10 10:51
閱讀 2548·2019-08-30 15:54
閱讀 3228·2019-08-30 15:54
閱讀 881·2019-08-30 11:07
閱讀 1013·2019-08-29 18:36