成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

從Pix2Code到CycleGAN:2017年深度學(xué)習(xí)重大研究進(jìn)展全解讀

kuangcaibao / 3297人閱讀

摘要:文本谷歌神經(jīng)機(jī)器翻譯去年,谷歌宣布上線的新模型,并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)。目前唇讀的準(zhǔn)確度已經(jīng)超過了人類。在該技術(shù)的發(fā)展過程中,谷歌還給出了新的,它包含了大量的復(fù)雜案例。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡(luò)畫畫。

1. 文本

1.1 谷歌神經(jīng)機(jī)器翻譯

去年,谷歌宣布上線 Google Translate 的新模型,并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)——循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。

關(guān)鍵結(jié)果:與人類翻譯準(zhǔn)確率的差距縮小了 55-85%(研究者使用 6 個(gè)語言對的評估結(jié)果)。但是該模型如果沒有谷歌的大型數(shù)據(jù)集,則很難復(fù)現(xiàn)這么優(yōu)秀的結(jié)果。

1.2 談判會達(dá)成嗎?

你或許聽說過「Facebook 因?yàn)榱奶鞕C(jī)器人失控、創(chuàng)造自己語言而關(guān)閉聊天機(jī)器人」的消息。這個(gè)機(jī)器人是用來進(jìn)行談判的,其目的是與另一個(gè)智能體進(jìn)行文本談判,然后達(dá)成協(xié)議:如何把物品(書籍、帽子等)分成兩份。談判中每個(gè)智能體都有自己的目標(biāo),而對方并不知道。談判不可能出現(xiàn)未達(dá)成協(xié)議的情況。

研究者在訓(xùn)練過程中收集人類談判的數(shù)據(jù)集,訓(xùn)練監(jiān)督式循環(huán)網(wǎng)絡(luò)。然后,讓用強(qiáng)化學(xué)習(xí)訓(xùn)練出的智能體自己與自己交流,直到獲得與人類相似的談判模式。

該機(jī)器人學(xué)會了一種真正的談判策略——對某個(gè)交易的特定方面假裝產(chǎn)生興趣,然后再放棄它們,以達(dá)到真實(shí)目標(biāo)。這是第一次嘗試此類互動(dòng)機(jī)器人,而且也比較成功。

當(dāng)然,稱該機(jī)器人創(chuàng)造了一種新語言的說法過于夸張了。和同一個(gè)智能體進(jìn)行談判的訓(xùn)練過程中,研究者無法限制文本與人類語言的相似度,然后算法修改了互動(dòng)語言。這是很尋常的事。

2. 語音

2.1 WaveNet:一種針對原始語音的生成模型

DeepMind 的研究者基于先前的圖像生成方法構(gòu)建了一種自回歸全卷積模型 WaveNet。該模型是完全概率的和自回歸的(fully probabilistic and autoregressive),其每一個(gè)音頻樣本的預(yù)測分布的前提是所有先前的樣本;不過研究表明它可以有效地在每秒音頻帶有數(shù)萬個(gè)樣本的數(shù)據(jù)上進(jìn)行訓(xùn)練。當(dāng)被應(yīng)用于文本轉(zhuǎn)語音時(shí),它可以得到當(dāng)前較佳的表現(xiàn),人類聽眾評價(jià)它在英語和漢語上比當(dāng)前較好的參數(shù)(parametric)和拼接(concatenative)系統(tǒng)所生成的音頻聽起來都顯著更為自然。

單個(gè) WaveNet 就可以以同等的保真度捕獲許多不同說話者的特點(diǎn),而且可以通過調(diào)節(jié)說話者身份來在它們之間切換。當(dāng)訓(xùn)練該模型對音樂建模時(shí),我們發(fā)現(xiàn)它可以生成全新的、而且往往具有高度真實(shí)感的音樂片段。該研究還證明其可以被用作判別模型,可以為音速識別(phoneme recognition)返回很有希望的結(jié)果。

該網(wǎng)絡(luò)以端到端的方式進(jìn)行訓(xùn)練:文本作為輸入,音頻作為輸出。研究者得到了非常好的結(jié)果,機(jī)器合成語音水平與人類差距縮小 50%。

該網(wǎng)絡(luò)的主要缺陷是低生產(chǎn)力,因?yàn)樗褂米曰貧w,聲音按序列生成,需要 1-2 分鐘的時(shí)間才能生成一秒音頻。

2.2 唇讀

唇讀(lipreading)是指根據(jù)說話人的嘴唇運(yùn)動(dòng)解碼出文本的任務(wù)。傳統(tǒng)的方法是將該問題分成兩步解決:設(shè)計(jì)或?qū)W習(xí)視覺特征、以及預(yù)測。最近的深度唇讀方法是可以端到端訓(xùn)練的(Wand et al., 2016; Chung & Zisserman, 2016a)。目前唇讀的準(zhǔn)確度已經(jīng)超過了人類。

Google DeepMind 與牛津大學(xué)合作的一篇論文《Lip Reading Sentences in the Wild》介紹了他們的模型經(jīng)過電視數(shù)據(jù)集的訓(xùn)練后,性能超越 BBC 的專業(yè)唇讀者。

該數(shù)據(jù)集包含 10 萬個(gè)音頻、視頻語句。音頻模型:LSTM,視頻模型:CNN + LSTM。這兩個(gè)狀態(tài)向量被饋送至最后的 LSTM,然后生成結(jié)果(字符)。

訓(xùn)練過程中使用不同類型的輸入數(shù)據(jù):音頻、視頻、音頻+視頻。即,這是一個(gè)「多渠道」模型。

2.3 人工合成奧巴馬:嘴唇動(dòng)作和音頻的同步

華盛頓大學(xué)進(jìn)行了一項(xiàng)研究,生成美國前總統(tǒng)奧巴馬的嘴唇動(dòng)作。選擇奧巴馬的原因在于網(wǎng)絡(luò)上有他大量的視頻(17 小時(shí)高清視頻)。

研究者使用了一些技巧來改善該研究的效果。

3. 計(jì)算機(jī)視覺

3.1. OCR:谷歌地圖與街景

谷歌大腦團(tuán)隊(duì)在其文章中報(bào)道了如何把新的 OCR(光學(xué)字符識別)引擎引入其地圖中,進(jìn)而可以識別街頭的標(biāo)志與商標(biāo)。

在該技術(shù)的發(fā)展過程中,谷歌還給出了新的 FSNS(French Street Name Signs),它包含了大量的復(fù)雜案例。

為了識別標(biāo)志,網(wǎng)絡(luò)最多使用 4 張圖片。特征通過 CNN 提取,在空間注意力(考慮像素坐標(biāo))的幫助下縮放,最后結(jié)果被饋送至 LSTM。

相同方法被用于識別廣告牌上店鋪名稱的任務(wù)上(存在大量噪音數(shù)據(jù),網(wǎng)絡(luò)本身必須關(guān)注正確的位置)。這一算法被應(yīng)用到 800 億張圖片之上。

3.2 視覺推理

視覺推理指的是讓神經(jīng)網(wǎng)絡(luò)回答根據(jù)照片提出的問題。例如,「照片中有和黃色的金屬圓柱的尺寸相同的橡膠物體嗎?」這樣的問題對于機(jī)器是很困難的,直到最近,這類問題的回答準(zhǔn)確率才達(dá)到了 68.5%。

為了更深入地探索視覺推理的思想,并測試這種能力能否輕松加入目前已有的系統(tǒng),DeepMind 的研究者們開發(fā)了一種簡單、即插即用的 RN 模塊,它可以加載到目前已有的神經(jīng)網(wǎng)絡(luò)架構(gòu)中。具備 RN 模塊的神經(jīng)網(wǎng)絡(luò)具有處理非結(jié)構(gòu)化輸入的能力(如一張圖片或一組語句),同時(shí)推理出事物其后隱藏的關(guān)系。

使用 RN 的網(wǎng)絡(luò)可以處理桌子上的各種形狀(球體、立方體等)物體組成的場景。為了理解這些物體之間的關(guān)系(如球體的體積大于立方體),神經(jīng)網(wǎng)絡(luò)必須從圖像中解析非結(jié)構(gòu)化的像素流,找出哪些數(shù)據(jù)代表物體。在訓(xùn)練時(shí),沒有人明確告訴網(wǎng)絡(luò)哪些是真正的物體,它必須自己試圖理解,并將這些物體識別為不同類別(如球體和立方體),隨后通過 RN 模塊對它們進(jìn)行比較并建立「關(guān)系」(如球體大于立方體)。這些關(guān)系不是硬編碼的,而是必須由 RN 學(xué)習(xí)——這一模塊會比較所有可能性。最后,系統(tǒng)將所有這些關(guān)系相加,以產(chǎn)生場景中對所有形狀對的輸出。

目前的機(jī)器學(xué)習(xí)系統(tǒng)在 CLEVR 上標(biāo)準(zhǔn)問題架構(gòu)上的回答成功率為 68.5%,而人類的準(zhǔn)確率為 92.5%。但是使用了 RN 增強(qiáng)的神經(jīng)網(wǎng)絡(luò),DeepMind 展示了超越人類表現(xiàn)的 95.5% 的準(zhǔn)確率。RN 增強(qiáng)網(wǎng)絡(luò)在 20 個(gè) bAbI 任務(wù)中的 18 個(gè)上得分均超過 95%,與現(xiàn)有的較先進(jìn)的模型相當(dāng)。值得注意的是,具有 RN 模塊的模型在某些任務(wù)上的得分具有優(yōu)勢(如歸納類問題),而已有模型則表現(xiàn)不佳。

下圖為視覺問答的架構(gòu)。問題在經(jīng)過 LSTM 處理后產(chǎn)生一個(gè)問題嵌入(question embedding),而圖像被一個(gè) CNN 處理后產(chǎn)生一組可用于 RN 的物體。物體(圖中用黃色、紅色和藍(lán)色表示)是在卷積處理后的圖像上使用特征圖向量構(gòu)建的。該 RN 網(wǎng)絡(luò)會根據(jù)問題嵌入來考慮所有物體對之間的關(guān)系,然后會整合所有這些關(guān)系來回答問題。

3.3 Pix2Code

哥本哈根的一家初創(chuàng)公司 UIzard Technologies 訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò),能夠把圖形用戶界面的截圖轉(zhuǎn)譯成代碼行,成功為開發(fā)者們分擔(dān)了部分網(wǎng)站設(shè)計(jì)流程。令人驚嘆的是,同一個(gè)模型能跨平臺工作,包括 iOS、Android 和 Web 界面,從目前的研發(fā)水平來看,該算法的準(zhǔn)確率達(dá)到了 77%。

為了實(shí)現(xiàn)這一點(diǎn),研究者們需要分三個(gè)步驟來訓(xùn)練,首先,通過計(jì)算機(jī)視覺來理解 GUI 圖像和里面的元素(按鈕、條框等)。接下來模型需要理解計(jì)算機(jī)代碼,并且能生成在句法上和語義上都正確的樣本。最后的挑戰(zhàn)是把之前的兩步聯(lián)系起來,需要它用推測場景來生成描述文本。

雖然該工作展示了這樣一種能自動(dòng)生成 GUI 代碼的潛力系統(tǒng),但該研究只是開發(fā)了這種潛力的皮毛。目前的 Pix2Code 模型由相對較少的參數(shù)組成,并且只能在相對較小的數(shù)據(jù)集上訓(xùn)練。而構(gòu)建更復(fù)雜的模型,并在更大的數(shù)據(jù)集上訓(xùn)練會顯著地提升代碼生成的質(zhì)量。并且采用各種正則化方法和實(shí)現(xiàn)注意力機(jī)制(attention mechanism [1])也能進(jìn)一步提升生成代碼的質(zhì)量。同時(shí)該模型采用的獨(dú)熱編碼(one-hot encoding)并不會提供任何符號間關(guān)系的信息,而采用 word2vec [12] 那樣的詞嵌入模型可能會有所好轉(zhuǎn)。因此將圖片轉(zhuǎn)換為 UI 代碼的工作仍處于研究之中,目前尚未投入實(shí)際使用。

項(xiàng)目地址:https://github.com/tonybeltramelli/pix2code

3.4 SketchRNN:教機(jī)器畫畫

你可能看過谷歌的 Quick, Draw! 數(shù)據(jù)集,其目標(biāo)是 20 秒內(nèi)繪制不同物體的簡筆畫。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡(luò)畫畫。

研究者使用 RNN 訓(xùn)練序列到序列的變分自編碼器(VAE)作為編解碼機(jī)制。

最終,該模型獲取表示原始圖像的隱向量(latent vector)。

解碼器可從該向量中提取圖畫,你可以改變它,生成新的簡筆畫。

甚至使用向量算術(shù)來繪制貓豬(catpig):

3.5 GAN

GAN 是深度學(xué)習(xí)領(lǐng)域里的一個(gè)熱門話題。目前這種方法大多用于處理圖像,所以本文也主要介紹這一方面。GAN 的全稱為生成對抗網(wǎng)絡(luò),是 2014 年由 Ian Goodfellow 及其蒙特利爾大學(xué)的同事們率先提出的。這是一種學(xué)習(xí)數(shù)據(jù)的基本分布的全新方法,讓生成出的人工對象可以和真實(shí)對象之間達(dá)到驚人的相似度。

GAN 背后的思想非常直觀:生成器和鑒別器兩個(gè)網(wǎng)絡(luò)彼此博弈。生成器的目標(biāo)是生成一個(gè)對象(比如人的照片),并使其看起來和真的一樣。而鑒別器的目標(biāo)就是找到生成出的結(jié)果和真實(shí)圖像之間的差異。鑒別器通常會從數(shù)據(jù)集中給出圖像用于對比。

由于很難找出兩個(gè)網(wǎng)絡(luò)之間的平衡點(diǎn),訓(xùn)練通常難以連續(xù)進(jìn)行。大多數(shù)情況下鑒別器會獲勝,訓(xùn)練陷入停滯。盡管如此,由于鑒別器的設(shè)計(jì)可以幫助我們從損失函數(shù)設(shè)定這樣的復(fù)雜問題中解決出來(例如:提升圖片質(zhì)量),所以 GAN 獲得了眾多研究者的青睞。

典型的 GAN 訓(xùn)練結(jié)果——臥室和人臉。

在此之前,我們通常會考慮使用自編碼器(Sketch-RNN),讓其將原始數(shù)據(jù)編碼成隱藏表示。這和 GAN 中生成器所做的事情一樣。

你可以在這個(gè)項(xiàng)目中(http://carpedm20.github.io/faces/)找到使用向量生成圖片的方法。你可以自行嘗試調(diào)整向量,看看生成的人臉會如何變化。

這種算法在隱空間上同樣適用:「一個(gè)戴眼鏡的男人」減去「男人」加上「女人」就等于「一個(gè)戴眼鏡的女人」。

3.6 使用 GAN 改變面部年齡

如果在訓(xùn)練過程中獲得一個(gè)可控制的隱向量參數(shù),我們就可以在推斷階段修改這個(gè)向量以控制圖像的生成屬性,這種方法被稱為條件 GAN。

論文 Face Aging With Conditional Generative Adversarial Networks 的作者使用在 IMDB 數(shù)據(jù)集上預(yù)訓(xùn)練模型而獲得年齡的預(yù)測方法,然后研究者基于條件 GAN 修改生成圖像的面部年齡。

3.7 專業(yè)攝影作品

谷歌已經(jīng)開發(fā)了另一個(gè)非常有意思的 GAN 應(yīng)用,即攝影作品的選擇和改進(jìn)。開發(fā)者在專業(yè)攝影作品數(shù)據(jù)集上訓(xùn)練 GAN,其中生成器試圖改進(jìn)照片的表現(xiàn)力(如更好的拍攝參數(shù)和減少對濾鏡的依賴等),判別器用于區(qū)分「改進(jìn)」的照片和真實(shí)的作品。

訓(xùn)練后的算法會通過 Google Street View 搜索較佳構(gòu)圖,獲得了一些專業(yè)級的和半專業(yè)級的作品評分。

3.8 pix2pix

伯克利人工智能研究室(BAIR)在 2016 年非常引人注目的研究 Image-to-Image Translation with Conditional Adversarial Networks 中,研究人員解決了圖像到圖像的生成問題。例如需要使用衛(wèi)星圖像創(chuàng)建地圖,或使用素描創(chuàng)建逼真的目標(biāo)紋理等。

這里有另一個(gè)非常成功的條件 GAN 應(yīng)用案例。在該情況下,條件將變?yōu)檎麖垐D像。此外,UNet 在圖像分割中十分受歡迎,經(jīng)常用于生成器的體系結(jié)構(gòu),且該論文使用了新型 PatchGAN 分類器作為處理模糊圖像的判別器。

該論文的作者還發(fā)布了他們網(wǎng)絡(luò)的在線演示:https://affinelayer.com/pixsrv/

源代碼:https://github.com/phillipi/pix2pix

3.9 CycleGAN

為了應(yīng)用 Pix2Pix,我們需要包含了不同領(lǐng)域圖像對的數(shù)據(jù)集。收集這樣的數(shù)據(jù)集并不困難,但對于更復(fù)雜一點(diǎn)的轉(zhuǎn)換目標(biāo)或風(fēng)格化目標(biāo)等操作,原則上是找不到這樣的目標(biāo)對。

因此,Pix2Pix 的作者為了解決這樣的問題提出了在不同圖像領(lǐng)域之間轉(zhuǎn)換而不需要特定圖像對的 CycleGAN 模型,原論文為《Unpaired Image-to-Image Translation》。

該論文的主要想法是訓(xùn)練兩對生成器-判別器模型以將圖像從一個(gè)領(lǐng)域轉(zhuǎn)換為另一個(gè)領(lǐng)域,在這過程中我們要求循環(huán)一致性。即在序列地應(yīng)用生成器后,我們應(yīng)該得到一個(gè)相似于原始 L1 損失的圖像。因此我們需要一個(gè)循環(huán)損失函數(shù)(cyclic loss),它能確保生成器不會將一個(gè)領(lǐng)域的圖像轉(zhuǎn)換到另一個(gè)和原始圖像完全不相關(guān)的領(lǐng)域。

這個(gè)方法允許我們學(xué)習(xí)將馬映射到斑馬。

這樣的轉(zhuǎn)換通常是不穩(wěn)定的,并且經(jīng)常創(chuàng)建一些不成功的案例:

源代碼:https://github.com/junyanz/CycleGAN

3.10 腫瘤分子學(xué)的進(jìn)展

機(jī)器學(xué)習(xí)正在幫助改善醫(yī)療的手段,它除了在超聲波識別、MPI 和診斷等方面的應(yīng)用,還能尋找對抗癌癥的性藥物。

簡單來說,在對抗自編碼器(AAE)的幫助下,我們可以學(xué)習(xí)藥物分子的潛在表征,并用來搜索新的藥物結(jié)構(gòu)。該項(xiàng)研究中,研究者發(fā)現(xiàn)了 69 個(gè)分子,且有一半的分子可用來治療癌癥和其它一些比較嚴(yán)重的疾病。

3.11 對抗性攻擊

對抗性樣本這一領(lǐng)域也有非常大的活力,研究者希望找到這種令模型不穩(wěn)定的因素而提升識別性能。例如在 ImageNet 中,訓(xùn)練的模型在識別加了一些噪點(diǎn)的樣本會完全識別錯(cuò)誤,這樣加了噪點(diǎn)的圖像可能在我們?nèi)搜劭磥硎菦]有問題的。這一問題展現(xiàn)在下圖中,熊貓的圖像加了一點(diǎn)噪聲就會被錯(cuò)誤識別為長臂猿。

Goodfellow et al. (2014b) 表明,出現(xiàn)這些對抗樣本的主要原因之一是模型過度線性化。神經(jīng)網(wǎng)絡(luò)主要是基于線性模塊而構(gòu)建的,因此它們實(shí)現(xiàn)的整體函數(shù)被證明是高度線性的。雖然這些線性函數(shù)很容易優(yōu)化,但如果一個(gè)線性函數(shù)具有許多輸入,那么它的值可以非常迅速地改變。如果我們用 ? 改變每個(gè)輸入,那么權(quán)重為 w 的線性函數(shù)改變可以達(dá)到 ?∥w∥_1,如果 w 的維度較高,那么這會是一個(gè)非常大的數(shù)值。對抗訓(xùn)練通過鼓勵(lì)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)附近的局部區(qū)域恒定來限制這一高度敏感的局部線性行為。這可以被看作是一種明確地向監(jiān)督神經(jīng)網(wǎng)絡(luò)引入局部恒定先驗(yàn)的方法。

下面一個(gè)例子表示特殊的眼鏡可以欺騙人臉識別系統(tǒng),所以在訓(xùn)練特定的模型時(shí),我們需要考慮這種對抗性攻擊并使用對抗性樣本提高模型的魯棒性。

這種使用符號的方法也不能被正確地識別。

4 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)(RL)或使用了強(qiáng)化機(jī)制的學(xué)習(xí)也是機(jī)器學(xué)習(xí)中最有趣和發(fā)展活躍的方法之一。

該方法的本質(zhì)是在一個(gè)根據(jù)經(jīng)驗(yàn)給予獎(jiǎng)勵(lì)(正如人類的學(xué)習(xí)方式)的環(huán)境中學(xué)習(xí)智能體的成功行為。

RL 在游戲、機(jī)器人和系統(tǒng)控制(例如,交通)中被廣泛應(yīng)用。

當(dāng)然,每個(gè)人都已經(jīng)聽說了 AlphaGo 在游戲中擊敗過多個(gè)頂尖專業(yè)選手。研究者使用 RL 訓(xùn)練 AlphaGo 的過程是:讓機(jī)器通過自我對弈提升決策能力。

4.1 結(jié)合非受控輔助任務(wù)的強(qiáng)化訓(xùn)練

去年,DeepMind 通過使用 DQN 玩電子游戲取得了超越人類的表現(xiàn)。最近,人們已經(jīng)開發(fā)出了能讓機(jī)器玩更加復(fù)雜的游戲(如 Doom)的算法。

大多數(shù)研究關(guān)注于學(xué)習(xí)加速,因?yàn)閷W(xué)習(xí)智能體與環(huán)境交互的經(jīng)驗(yàn)需要在現(xiàn)代 GPU 上執(zhí)行很長時(shí)間的訓(xùn)練。

DeepMind 的博客(https://deepmind.com/blog/reinforcement-learning-unsupervised-auxiliary-tasks/)中報(bào)告了引入附加損失(輔助任務(wù))的辦法,例如預(yù)測幀變化(像素控制)使智能體更充分地理解動(dòng)作的后果,可以顯著加快學(xué)習(xí)過程。

4.2 學(xué)習(xí)機(jī)器人

OpenAI 對在虛擬環(huán)境中訓(xùn)練智能體進(jìn)行了積極的研究,相比在現(xiàn)實(shí)世界中進(jìn)行實(shí)驗(yàn)要安全得多。

在其中一個(gè)研究中(https://blog.openai.com/robots-that-learn/),他們證明了一次性學(xué)習(xí)(one-shot learning)是可能實(shí)現(xiàn)的:在 VR 中的一個(gè)人展示如何執(zhí)行任務(wù),并且算法只需要一次展示就能學(xué)會然后在實(shí)際條件下將其重現(xiàn)。

如果只有人類有這個(gè)能力就好了。:)

4.3 學(xué)習(xí)人類的偏好

這是 OpenAI(https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/)和 DeepMind 都曾研究過的課題。基本目標(biāo)是智能體有一個(gè)任務(wù),算法為人類提供兩個(gè)可能的解決方案,并指出那個(gè)更好。該過程需要重復(fù)迭代,并且算法接收來自學(xué)習(xí)如何解決問題的人類的 900 比特大小的反饋(二進(jìn)制標(biāo)記)。

一如既往,人類必須謹(jǐn)慎判斷,思考他教給機(jī)器究竟是什么。例如,評估器得出算法確實(shí)想要拿到某個(gè)物體,但實(shí)際上,人類只是想進(jìn)行一次模擬實(shí)驗(yàn)。

4.4 在復(fù)雜環(huán)境中的運(yùn)動(dòng)

這是 DeepMind 的另一項(xiàng)研究(https://deepmind.com/blog/producing-flexible-behaviours-simulated-environments/)。為了教會機(jī)器人執(zhí)行復(fù)雜的行為(行走、跳躍,等),甚至達(dá)到類似人體的動(dòng)作,你需要非常重視損失函數(shù)的選擇,以獲得想要的行為。然而,讓算法自身通過簡單的獎(jiǎng)勵(lì)機(jī)制學(xué)習(xí)復(fù)雜的行為或許會有更好的效果。

為了達(dá)到這個(gè)目標(biāo),研究者通過構(gòu)建一個(gè)包含障礙物的復(fù)雜環(huán)境教智能體(人體模擬器)執(zhí)行復(fù)雜的動(dòng)作,結(jié)合簡單的獎(jiǎng)勵(lì)機(jī)制提高動(dòng)作質(zhì)量。

可以通過視頻查看研究取得的令人印象深刻的結(jié)果。

最后,我給出 OpenAI 近日發(fā)布的應(yīng)用強(qiáng)化學(xué)習(xí)的算法的鏈接(https://github.com/openai/baselines)。這個(gè)解決方案比標(biāo)準(zhǔn)的 DQN 方法更好。

5 其它

5.1 數(shù)據(jù)中心冷卻系統(tǒng)

在 2017 年 7 月,谷歌報(bào)告稱他們利用 DeepMind 的機(jī)器學(xué)習(xí)研究成果降低了數(shù)據(jù)中心的能耗。

基于來自數(shù)據(jù)中心的幾千個(gè)傳感器的信息,谷歌開發(fā)者訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)集成預(yù)測能量利用效率(PUE)以及更高效的數(shù)據(jù)中心管理方法。這是機(jī)器學(xué)習(xí)中非常令人印象深刻和重要的實(shí)際應(yīng)用案例。

5.2 通用模型

如你所知,已訓(xùn)練模型的任務(wù)遷移性能很差,因?yàn)槊總€(gè)模型都是為特定的任務(wù)而設(shè)計(jì)的。谷歌大腦的一篇論文(https://arxiv.org/abs/1706.05137)在通用模型的研究上跨出了一小步。

研究者訓(xùn)練了一個(gè)模型,可以執(zhí)行 8 個(gè)不同領(lǐng)域(文本、語音和圖像)的任務(wù)。例如,不同語言的翻譯、文本解析,以及圖像、語音識別。

為了達(dá)到這個(gè)目的,他們使用多種不同的模塊構(gòu)建了一個(gè)復(fù)雜的網(wǎng)絡(luò)架構(gòu)以處理不同的輸入數(shù)據(jù)并生成結(jié)果。編碼器/解碼器模塊包含三種類型:卷積、注意和 MoE(https://arxiv.org/abs/1701.06538)。

他們幾乎得到了完美的模型(作者并沒有細(xì)調(diào)超參數(shù))。

模型中存在不同領(lǐng)域知識的遷移,即,相比使用大量數(shù)據(jù)訓(xùn)練的任務(wù)(無遷移),該模型能獲得幾乎相同的性能。并且這個(gè)模型在小數(shù)據(jù)任務(wù)上表現(xiàn)得更好(例如,文本解析)。

不同任務(wù)所需的模塊之間并不會互相干擾,有時(shí)甚至能互相輔助,例如,MoE 可以輔助 ImageNet 圖像識別任務(wù)。

模型的 GitHub 地址:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/multimodel.py

5.3. 一小時(shí)訓(xùn)練 ImageNet

Facebook 在其博文中告訴我們其工程師能夠用 1 小時(shí)的時(shí)間通過 Imagenet 教會 ResNet-50 模型,不過其實(shí)現(xiàn)需要 256 塊 GPU (Tesla P100)。

他們通過 Gloo 和 Caffe2 實(shí)現(xiàn)分布式學(xué)習(xí)。為了更有效,采用大批量的學(xué)習(xí)策略很有必要:梯度平均、特定學(xué)習(xí)率等。

結(jié)果,當(dāng)從 8 塊 GPU 擴(kuò)展到 256 塊時(shí),效率可高達(dá) 90%?,F(xiàn)在,F(xiàn)acebook 可以更快地進(jìn)行實(shí)驗(yàn)。

6. 新聞

6.1. 自動(dòng)駕駛

自動(dòng)駕駛領(lǐng)域正密集地發(fā)展,測試也在積極地開展。從最近事件中我們注意到英特爾收購 MobilEye,Uber 從谷歌剽竊自動(dòng)駕駛技術(shù)的丑聞,以及較早的自動(dòng)駕駛死亡案例等等。

這里我提醒一件事:谷歌 Waymo 推出了 beta 版。谷歌是該領(lǐng)域的先驅(qū)者,可以假定他們的技術(shù)很好,因?yàn)槠渥詣?dòng)駕駛汽車?yán)锍桃殉^ 300 萬英里。

更近的事件則有自動(dòng)駕駛汽車已在美國所有州允許上路測試。

6.2. 醫(yī)療

就像我說的,現(xiàn)代機(jī)器學(xué)習(xí)正開始應(yīng)用于醫(yī)療。比如,谷歌與某醫(yī)療中心展開合作提升診斷。DeepMind 甚至還為此成立了一個(gè)獨(dú)立部門。

在今年的 Data Science Bowl 上,有一個(gè)獎(jiǎng)金高達(dá) 100 萬美元的競賽,根據(jù)標(biāo)注圖像預(yù)測一年之中的肺癌情況。

6.3. 投資

正如之前的大數(shù)據(jù),機(jī)器學(xué)習(xí)當(dāng)下也涌入了大量資本。中國在 AI 領(lǐng)域的投資高達(dá) 1500 億美元,從而成為行業(yè)領(lǐng)導(dǎo)者之一。

相比之下,百度研究院擁有 1300 名員工,而 Facebook FAIR 則只有 80 名。在今年閉幕的 KDD 2017 上,阿里巴巴介紹了其參數(shù)服務(wù)器鯤鵬,它帶有萬億個(gè)參數(shù),并使得運(yùn)行 1000 億個(gè)樣本成為常規(guī)任務(wù)。

人工智能仍處于起步階段,入門學(xué)習(xí)機(jī)器學(xué)習(xí)永遠(yuǎn)不嫌晚。不管怎樣,所有開發(fā)者會慢慢用起機(jī)器學(xué)習(xí),這項(xiàng)技術(shù)會成為程序員的必備技能之一,就像現(xiàn)在每個(gè)人都會使用數(shù)據(jù)庫一樣。 ?

原文鏈接:https://blog.statsbot.co/deep-learning-achievements-4c563e034257

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識

QQ群:81035754

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4701.html

相關(guān)文章

  • 中國數(shù)字產(chǎn)業(yè)迎來發(fā)展黃金期

    摘要:中國數(shù)字產(chǎn)業(yè)正在迎來發(fā)展黃金期,其最大特點(diǎn)是信息和通信技術(shù)和數(shù)字基礎(chǔ)設(shè)施將被各行各業(yè)廣泛應(yīng)用,數(shù)字技術(shù)的創(chuàng)新將給所有產(chǎn)業(yè)帶來進(jìn)一步的繁榮,同時(shí)能夠驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)和實(shí)體經(jīng)濟(jì)進(jìn)一步增長。數(shù)字產(chǎn)業(yè)的繁榮是新時(shí)期經(jīng)濟(jì)發(fā)展的重要基石。習(xí)近平總書記在今年舉行的全國網(wǎng)絡(luò)安全和信息化工作會議上明確指出,要發(fā)展數(shù)字經(jīng)濟(jì),加快推動(dòng)數(shù)字產(chǎn)業(yè)化,這一表述不僅引起強(qiáng)烈共鳴,也預(yù)示著中國數(shù)字產(chǎn)業(yè)發(fā)展迎來重大機(jī)遇。中國數(shù)字...

    voyagelab 評論0 收藏0
  • 用GAN去除動(dòng)作片中的馬賽克和衣服

    摘要:這篇就介紹利用生成式對抗網(wǎng)絡(luò)的兩個(gè)基本駕駛技能去除愛情動(dòng)作片中的馬賽克給愛情動(dòng)作片中的女孩穿衣服生成式模型上一篇用生成二維樣本的小例子中已經(jīng)簡單介紹了,這篇再簡要回顧一下生成式模型,算是補(bǔ)全一個(gè)來龍去脈。 作為一名久經(jīng)片場的老司機(jī),早就想寫一些探討駕駛技術(shù)的文章。這篇就介紹利用生成式對抗網(wǎng)絡(luò)(GAN)的兩個(gè)基本駕駛技能:1) 去除(愛情)動(dòng)作片中的馬賽克2) 給(愛情)動(dòng)作片中的女孩穿(tu...

    DC_er 評論0 收藏0

發(fā)表評論

0條評論

kuangcaibao

|高級講師

TA的文章

閱讀更多
最新活動(dòng)
閱讀需要支付1元查看
<