摘要:今年月,谷歌發(fā)布了。在谷歌內(nèi)部被稱為的方法中,一個控制器神經(jīng)網(wǎng)絡(luò)可以提出一個子模型架構(gòu),然后可以在特定任務(wù)中對其進(jìn)行訓(xùn)練和評估質(zhì)量。對于整個領(lǐng)域來說,一定是下一個時代發(fā)展重點(diǎn),并且極有可能是機(jī)器學(xué)習(xí)的大殺器。
為什么我們需要 AutoML?
在談?wù)撨@個問題之前,我們需要先弄清楚機(jī)器學(xué)習(xí)的一般步驟。
其實,不論是圖像識別、語音識別還是其他的機(jī)器學(xué)習(xí)項目,其結(jié)構(gòu)差別是很小的,一個效果好的模型需要大量的經(jīng)驗來調(diào)優(yōu)。實現(xiàn)過程有以下步驟:
數(shù)據(jù)預(yù)處理
特性選擇
模型算法選擇
調(diào)參
上線后模型的再優(yōu)化
效果評估
在 AI 浪潮再次興起的背景下,許多企業(yè)都對 AI 躍躍欲試,但因為相關(guān)人才在全球都呈現(xiàn)稀缺,企業(yè)想招人也不見得招得到,要不就是得重金聘請,像是美國頂尖 AI 科學(xué)家的年薪已經(jīng)達(dá)到美國國家美式足球聯(lián)盟(NFL)四分衛(wèi)的水平(平均 270 萬美金 / 年),甚至還有的已經(jīng)超過 NBA 球星的平均薪水(2017 年數(shù)據(jù):平均 800 萬美金)。因此,對有意嘗試或?qū)?AI 的企業(yè)來說,“讓機(jī)器學(xué)習(xí)得以自動化”具有很大的吸引力。
深度學(xué)習(xí)技術(shù)往往比較復(fù)雜,從頭開發(fā)的難度較大,有一些公司提供了能幫助開發(fā)者輕松使用深度學(xué)習(xí)的自動化深度學(xué)習(xí)(ADL)平臺,比如微軟的 CustomVision.AI、谷歌的 Cloud AutoML,國內(nèi)諸如第四范式、智鈾科技等公司也推出了 AutoML 平臺。作為 AI 前線 AutoML 專題文章的第一篇,本文將重點(diǎn)介紹谷歌的 Cloud AutoML。
谷歌 Cloud AutoML
概況
AutoML 的概念源自 2012 年學(xué)術(shù)界提出一個新觀念——Programming by Optimization(PbO),字面上的意思是指以最優(yōu)化程序開發(fā),乍聽之下似乎看不出個所以然,這卻是一個相當(dāng)創(chuàng)新的觀念,實質(zhì)上就是要解決編程時人工調(diào)校參數(shù)的問題。
今年 1 月,谷歌發(fā)布了 Cloud AutoML。北京時間 1 月 18 日凌晨時分,李飛飛連發(fā)三條推特,發(fā)布了谷歌 AI 產(chǎn)品——Cloud AutoML Vision,“無需精通機(jī)器學(xué)習(xí),每個人都能用這款 AI 產(chǎn)品定制機(jī)器學(xué)習(xí)模型?!?/p>
鏈接:https://cloud.google.com/automl
AutoML Vision 是 Cloud AutoML 這個大項目推出的第一項服務(wù),提供自定義圖像識別系統(tǒng)自動開發(fā)服務(wù)。根據(jù)谷歌介紹,即使是沒有機(jī)器學(xué)習(xí)專業(yè)知識的的小白,只需了解模型基本概念,就能借這項服務(wù)輕松搭建定制化的圖像識別模型。 只需在系統(tǒng)中上傳自己的標(biāo)簽數(shù)據(jù),就能得到一個訓(xùn)練好的機(jī)器學(xué)習(xí)模型。整個過程,從導(dǎo)入數(shù)據(jù)到標(biāo)記到模型訓(xùn)練,都可以通過拖放式界面完成。
除了圖像識別,谷歌未來還計劃將 AutoML 服務(wù)拓展到翻譯、視頻和自然語言處理等領(lǐng)域。
解析
Google Cloud AutoML 服務(wù)使用了三個核心技術(shù),分別是:神經(jīng)架構(gòu)搜索技術(shù)(Neural Architecture Search Technology)、 learning2learn 以及遷移學(xué)習(xí) (transfer learning) 。
通過這些技術(shù)把參數(shù)以及結(jié)構(gòu)的調(diào)整交給機(jī)器。運(yùn)作的概念是機(jī)器利用神經(jīng)架構(gòu)搜索技術(shù)不斷測試,找出一個好的參數(shù)+神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的組合,AI 開發(fā)人員覺得這個組合不錯,認(rèn)可了之后,機(jī)器就會記住,下一次就會做得更快更精準(zhǔn),這就是 learning2learn;或是可以將此組合轉(zhuǎn)移到另外的應(yīng)用場景下使用,這就是遷移學(xué)習(xí)。
AutoML 神經(jīng)架構(gòu)
通常來說,機(jī)器學(xué)習(xí)模型是由工程師和科學(xué)家小組精心設(shè)計的。手動設(shè)計機(jī)器學(xué)習(xí)模型的過程是很困難的,因為所有可能的模型的搜索空間可以組合地大,典型的 10 層網(wǎng)絡(luò)一般具有 10^10 個候選網(wǎng)絡(luò)。出于這個原因,設(shè)計網(wǎng)絡(luò)的過程往往需要大量的時間和具有重要機(jī)器學(xué)習(xí)專業(yè)知識的人進(jìn)行實驗。
GoogleNet 架構(gòu)。這個網(wǎng)絡(luò)的設(shè)計需要從卷積體系結(jié)構(gòu)的初始版本進(jìn)行多年的仔細(xì)實驗和改進(jìn)。
為了使機(jī)器學(xué)習(xí)模型的設(shè)計過程更容易獲得,谷歌一直在探索使機(jī)器學(xué)習(xí)模型的設(shè)計自動化的方法。在他們研究的許多算法中,演化算法和強(qiáng)化學(xué)習(xí)算法表現(xiàn)出了很大的希望。
在谷歌內(nèi)部被稱為 Auto ML 的方法中,一個控制器神經(jīng)網(wǎng)絡(luò)可以提出一個“子”模型架構(gòu),然后可以在特定任務(wù)中對其進(jìn)行訓(xùn)練和評估質(zhì)量。之后,這種反饋被用來通知控制器如何改進(jìn)其下一輪提案。經(jīng)過數(shù)千次的重復(fù),新的體系結(jié)構(gòu)生成了。最終,控制器學(xué)習(xí)為空間區(qū)域分配高可能性,以在保持出來的驗證數(shù)據(jù)集上實現(xiàn)更高的準(zhǔn)確性,并且對建筑空間區(qū)域得分較低的區(qū)域的可能性低。以下是這一過程的樣子:
這種方法已經(jīng)被谷歌應(yīng)用于深度學(xué)習(xí)中的兩個高度基準(zhǔn)測試數(shù)據(jù)集:使用 CIFAR-10 進(jìn)行圖像識別以及使用 Penn Treebank 進(jìn)行語言建模。在這兩個數(shù)據(jù)集上,該方法可以設(shè)計出與機(jī)器學(xué)習(xí)專家設(shè)計的較先進(jìn)模型相媲美的模型。
那么,它會產(chǎn)生什么樣的神經(jīng)網(wǎng)絡(luò)?舉一個例子:經(jīng)過訓(xùn)練的經(jīng)常性架構(gòu)可以預(yù)測 Penn Treebank 數(shù)據(jù)集中的下一個單詞。這里左邊是由專家設(shè)計的神經(jīng)網(wǎng)絡(luò)。右邊是上述方法創(chuàng)建的經(jīng)常性架構(gòu):
機(jī)器選擇的體系結(jié)構(gòu)確實與人體設(shè)計共享一些共同特征,例如使用加法將輸入和以前的隱藏狀態(tài)組合在一起。但是,有一些值得注意的新元素 :例如,機(jī)器選擇的體系結(jié)構(gòu)包含乘法組合(右圖中最左邊的藍(lán)色節(jié)點(diǎn),標(biāo)記為“ elem_mult ”)。這種類型的組合對于經(jīng)常性網(wǎng)絡(luò)并不常見,這可能是因為研究人員沒有看到明顯的好處。有趣的是,這種方法最簡單的形式最近由人類設(shè)計師提出,他們也認(rèn)為這種乘法組合可以實際上減輕梯度消失 / 爆炸問題,這表明機(jī)器選擇的架構(gòu)能夠發(fā)現(xiàn)一種有用的新型神經(jīng)網(wǎng)絡(luò)架構(gòu)。
這種方法也可以證明為什么某些類型的神經(jīng)網(wǎng)絡(luò)工作得很好。這里右邊的架構(gòu)有很多通道,所以梯度可以倒退,這可能有助于解釋為什么 LSTM RNN 比標(biāo)準(zhǔn) RNN 更好地工作。
遷移學(xué)習(xí)
遷移學(xué)習(xí) (Transfer learning) 顧名思義就是就是把已學(xué)訓(xùn)練好的模型參數(shù)遷移到新的模型來幫助新模型訓(xùn)練。
考慮到大部分?jǐn)?shù)據(jù)或任務(wù)是存在相關(guān)性的,所以通過遷移學(xué)習(xí)可以將已經(jīng)學(xué)到的模型參數(shù)(也可理解為模型學(xué)到的知識)通過某種方式來分享給新模型從而加快并優(yōu)化模型的學(xué)習(xí)效率不用像大多數(shù)網(wǎng)絡(luò)那樣從零學(xué)習(xí)(starting from scratch,tabula rasa)。
Cloud AutoML 通過遷移學(xué)習(xí)(Transfer Learning)將已訓(xùn)練完成的模型,轉(zhuǎn)移到新的模型訓(xùn)練過程。這樣,能夠用較少量數(shù)據(jù)訓(xùn)練出機(jī)器學(xué)習(xí)模型。對于醫(yī)療領(lǐng)域而言,這點(diǎn)尤為重要,因為在為罕見疾病和一些特殊案例建模時,往往無法取得足夠的訓(xùn)練數(shù)據(jù)。
Learning2learn?
Cloud AutoML 通過 learning2learn 功能自動挑選適合的模型,搭配超參數(shù)調(diào)整技術(shù)(Hyperparameter tuning technologies)自動調(diào)整參數(shù)。
AutoML 面臨的挑戰(zhàn)
谷歌人工智能部門的掌門人 Jeff Dean 對 Auto ML 的出現(xiàn)感到興奮,因為它幫助 Google“自動解決問題”,但對 AutoML 的使用也提出了獨(dú)特的問題。
Dean 表示:“由于我們使用的是比傳統(tǒng)手工編碼軟件更多的系統(tǒng),我認(rèn)為這給我們帶來了很多挑戰(zhàn),我們正在處理這些問題。如果你從數(shù)據(jù)中學(xué)習(xí)并且數(shù)據(jù)已經(jīng)對它做出了偏差決定,那么學(xué)習(xí)的機(jī)器學(xué)習(xí)模型本身會使這些偏見永久化。所以我們正在做很多工作,同機(jī)器學(xué)習(xí)社區(qū)中的其他人一起,努力研究如何培訓(xùn)沒有偏見形式的機(jī)器學(xué)習(xí)模型?!?/p>
另一個挑戰(zhàn):如何使用 AutoML 正確設(shè)計安全關(guān)鍵系統(tǒng),為醫(yī)療保健等行業(yè)創(chuàng)建 AI。已經(jīng)建立了數(shù)十年的計算機(jī)科學(xué)較佳實踐,以便對這些系統(tǒng)進(jìn)行手工編碼,機(jī)器制造機(jī)器也必須執(zhí)行相同的步驟。
Dean 表示:在分類狗的種類時發(fā)現(xiàn)錯誤是一回事,但是在安全關(guān)鍵系統(tǒng)中犯下錯誤完全是另一回事。他說:“我認(rèn)為這對我們來說是一個非常有意義且重要的應(yīng)用方向,特別是當(dāng)我們開始在更安全的關(guān)鍵系統(tǒng)中進(jìn)行機(jī)器學(xué)習(xí),比如對醫(yī)療保健或自動駕駛汽車進(jìn)行決策?!?/p>
除了谷歌自家大佬提出的一些問題,其他專家也都對 AutoML 發(fā)表過看法。
一位不愿透露姓名的技術(shù)專家告訴 AI 前線,Cloud AutoML 目前推出的第一項服務(wù)是針對 Vision 的,ImageNet 數(shù)據(jù)集夠好夠大,所以大多情況下確實能夠遷移出不錯的效果,而且視覺現(xiàn)在屬于比較好做的領(lǐng)域了,如果是 NLP、CTR 這些領(lǐng)域,則要難很多。大家現(xiàn)在有點(diǎn)“谷歌做的肯定都是好的”的心理,不得不說谷歌 PR 能力確實厲害。
當(dāng)然,通過遷移學(xué)習(xí)實現(xiàn) AutoML 這件事情本身確實給了從業(yè)者很大的想象空間,可以打破數(shù)據(jù)孤島,更低成本地解決更多問題,比如用電商的數(shù)據(jù)去做傳統(tǒng)行業(yè)的推薦,或者一個新公司沒有數(shù)據(jù)但可以用其他公司或行業(yè)數(shù)據(jù)來做事情。
谷歌介紹稱 AutoML Vision 提供了簡潔的圖形化用戶界面,只需導(dǎo)入數(shù)據(jù)和拖拽組件就能打造全新模型,更有媒體報道直接突出“無需寫一行代碼”,那么真的可以不用寫代碼嗎?這位專家諱莫如深地告訴 AI 前線:“不寫代碼容易做,不寫代碼能做出好結(jié)果難呀。”
What`s Next?
對于整個 AI 領(lǐng)域來說,AutoML 一定是下一個時代發(fā)展重點(diǎn),并且極有可能是機(jī)器學(xué)習(xí)的“大殺器”。但是,對于大多數(shù)企業(yè)來說,哪怕是谷歌這樣的大廠,AutoML 仍然是一個新興的領(lǐng)域,所有人都在摸索,誰能先人一步搶占技術(shù)先機(jī)就顯得尤為重要。
然而在前不久舉辦的谷歌 I/O 開發(fā)者大會上,除了 Jeff Dean 偶爾提到了 AutoML 以外,并沒有任何的專題演講來對 AutoML 的進(jìn)展進(jìn)行講述,更是讓人感覺到這一新型技術(shù)的神秘和巨大潛力。
除了谷歌,在國際上如微軟這樣的大廠也已入局,本系列之后的文章也會提到。當(dāng)然,各位讀者可千萬不要以為 AutoML 這樣的服務(wù)只有國外用戶才能享受到,在國內(nèi),也有一批公司推出了自家的 AutoML 平臺,令人驚喜的是,它們當(dāng)中有相當(dāng)一部分是初創(chuàng)公司,在本系列中,我們還會介紹幾個國產(chǎn)的 AutoML 平臺,請拭目以待!
參考鏈接
http://developers.googleblog.cn/2017/11/automl.html
https://zhuanlan.zhihu.com/p/27792859
https://www.datasciencecentral.com/profiles/blogs/automated-deep-learning-so-simple-anyone-can-do-it
http://www.mittrchina.com/news/1582
https://www.zhihu.com/question/41979241/answer/123545914
https://www.jianshu.com/p/1430dcc71d15
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4774.html
摘要:在舊金山舉行的谷歌云計算業(yè)務(wù)會議上,展示了其眼鏡技術(shù)。來自的應(yīng)用程序是利用谷歌云計算部門提供的服務(wù)構(gòu)建的,并得到了這家搜索巨頭的支持。貝內(nèi)特說你們中很多人可能還記得以前的谷歌眼鏡,現(xiàn)在它回來了這款眼鏡已經(jīng)成為對企業(yè)真正有趣的技術(shù)。7月31日,以色列軟件公司Plataine展示了一款針對谷歌眼鏡的新應(yīng)用。它主要適用于制造業(yè)工人,能夠理解口語并提供口頭回答。在舊金山舉行的谷歌云計算業(yè)務(wù)會議上,P...
摘要:谷歌云在其官方博客上公布,確認(rèn)來自卡內(nèi)基梅隆大學(xué)的計算機(jī)科學(xué)院院長教授將在年底接任李飛飛的谷歌云負(fù)責(zé)人職位,而李飛飛也將正式回歸斯坦福大學(xué)當(dāng)教授。兩年前,李飛飛從斯坦福休假加入谷歌,成為谷歌云的負(fù)責(zé)人與首席科學(xué)家。今年7月的谷歌Next大會上,李飛飛宣布了兩年前推進(jìn)的Contact Center落地、AutoML推出自然語言和翻譯服務(wù)、TPU 3.0進(jìn)入谷歌云,這意味著谷歌云擁抱AI Fir...
摘要:通過在中結(jié)合進(jìn)化算法執(zhí)行架構(gòu)搜索,谷歌開發(fā)出了當(dāng)前較佳的圖像分類模型。本文是谷歌對該神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法的技術(shù)解讀,其中涉及兩篇論文,分別是和。此外,谷歌還使用其新型芯片來擴(kuò)大計算規(guī)模。 通過在 AutoML 中結(jié)合進(jìn)化算法執(zhí)行架構(gòu)搜索,谷歌開發(fā)出了當(dāng)前較佳的圖像分類模型 AmoebaNet。本文是谷歌對該神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法的技術(shù)解讀,其中涉及兩篇論文,分別是《Large-Scale Ev...
摘要:年度大會于月日到月日在舊金山中心舉行,谷歌云首席科學(xué)家李飛飛谷歌云研發(fā)負(fù)責(zé)人李佳等高管公布了的幾項最新產(chǎn)品。正式進(jìn)入谷歌云在這次的谷歌云大會上,李飛飛宣布第三代正式進(jìn)入谷歌云,現(xiàn)在是基于云的的版。Google Cloud年度大會Google Cloud Next 2018于7月24日到7月26日在舊金山Moscone中心舉行,谷歌云首席科學(xué)家李飛飛、谷歌云AI研發(fā)負(fù)責(zé)人李佳等高管公布了Goo...
摘要:據(jù)介紹,在谷歌近期的強(qiáng)化學(xué)習(xí)和基于進(jìn)化的的基礎(chǔ)上構(gòu)建,快速靈活同時能夠提供學(xué)習(xí)保證。剛剛,谷歌發(fā)布博客,開源了基于的輕量級框架,該框架可以使用少量專家干預(yù)來自動學(xué)習(xí)高質(zhì)量模型。 TensorFlow 是相對高階的機(jī)器學(xué)習(xí)庫,用戶可以方便地用它設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),而不必為了追求高效率的實現(xiàn)親自寫 C++或 CUDA 代碼。它和 Theano 一樣都支持自動求導(dǎo),用戶不需要再通過反向傳播求解...
閱讀 677·2021-10-09 09:41
閱讀 658·2019-08-30 15:53
閱讀 1084·2019-08-30 15:53
閱讀 1218·2019-08-30 11:01
閱讀 1576·2019-08-29 17:31
閱讀 996·2019-08-29 14:05
閱讀 1726·2019-08-29 12:49
閱讀 420·2019-08-28 18:17