從Pix2Code到CycleGAN：2017年深度學(xué)習(xí)重大研究進(jìn)展全解讀

kuangcaibao 發(fā)布于2019-04-25 18:22 / 3297人閱讀

摘要：文本谷歌神經(jīng)機(jī)器翻譯去年，谷歌宣布上線的新模型，并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)。目前唇讀的準(zhǔn)確度已經(jīng)超過了人類。在該技術(shù)的發(fā)展過程中，谷歌還給出了新的，它包含了大量的復(fù)雜案例。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡(luò)畫畫。

1. 文本

1.1 谷歌神經(jīng)機(jī)器翻譯

去年，谷歌宣布上線 Google Translate 的新模型，并詳細(xì)介紹了所使用的網(wǎng)絡(luò)架構(gòu)——循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）。

關(guān)鍵結(jié)果：與人類翻譯準(zhǔn)確率的差距縮小了 55-85%（研究者使用 6 個(gè)語言對的評估結(jié)果）。但是該模型如果沒有谷歌的大型數(shù)據(jù)集，則很難復(fù)現(xiàn)這么優(yōu)秀的結(jié)果。

1.2 談判會達(dá)成嗎？

你或許聽說過「Facebook 因?yàn)榱奶鞕C(jī)器人失控、創(chuàng)造自己語言而關(guān)閉聊天機(jī)器人」的消息。這個(gè)機(jī)器人是用來進(jìn)行談判的，其目的是與另一個(gè)智能體進(jìn)行文本談判，然后達(dá)成協(xié)議：如何把物品（書籍、帽子等）分成兩份。談判中每個(gè)智能體都有自己的目標(biāo)，而對方并不知道。談判不可能出現(xiàn)未達(dá)成協(xié)議的情況。

研究者在訓(xùn)練過程中收集人類談判的數(shù)據(jù)集，訓(xùn)練監(jiān)督式循環(huán)網(wǎng)絡(luò)。然后，讓用強(qiáng)化學(xué)習(xí)訓(xùn)練出的智能體自己與自己交流，直到獲得與人類相似的談判模式。

該機(jī)器人學(xué)會了一種真正的談判策略——對某個(gè)交易的特定方面假裝產(chǎn)生興趣，然后再放棄它們，以達(dá)到真實(shí)目標(biāo)。這是第一次嘗試此類互動(dòng)機(jī)器人，而且也比較成功。

當(dāng)然，稱該機(jī)器人創(chuàng)造了一種新語言的說法過于夸張了。和同一個(gè)智能體進(jìn)行談判的訓(xùn)練過程中，研究者無法限制文本與人類語言的相似度，然后算法修改了互動(dòng)語言。這是很尋常的事。

2. 語音

2.1 WaveNet：一種針對原始語音的生成模型

DeepMind 的研究者基于先前的圖像生成方法構(gòu)建了一種自回歸全卷積模型 WaveNet。該模型是完全概率的和自回歸的（fully probabilistic and autoregressive），其每一個(gè)音頻樣本的預(yù)測分布的前提是所有先前的樣本；不過研究表明它可以有效地在每秒音頻帶有數(shù)萬個(gè)樣本的數(shù)據(jù)上進(jìn)行訓(xùn)練。當(dāng)被應(yīng)用于文本轉(zhuǎn)語音時(shí)，它可以得到當(dāng)前較佳的表現(xiàn)，人類聽眾評價(jià)它在英語和漢語上比當(dāng)前較好的參數(shù)（parametric）和拼接（concatenative）系統(tǒng)所生成的音頻聽起來都顯著更為自然。

單個(gè) WaveNet 就可以以同等的保真度捕獲許多不同說話者的特點(diǎn)，而且可以通過調(diào)節(jié)說話者身份來在它們之間切換。當(dāng)訓(xùn)練該模型對音樂建模時(shí)，我們發(fā)現(xiàn)它可以生成全新的、而且往往具有高度真實(shí)感的音樂片段。該研究還證明其可以被用作判別模型，可以為音速識別（phoneme recognition）返回很有希望的結(jié)果。

該網(wǎng)絡(luò)以端到端的方式進(jìn)行訓(xùn)練：文本作為輸入，音頻作為輸出。研究者得到了非常好的結(jié)果，機(jī)器合成語音水平與人類差距縮小 50%。

該網(wǎng)絡(luò)的主要缺陷是低生產(chǎn)力，因?yàn)樗褂米曰貧w，聲音按序列生成，需要 1-2 分鐘的時(shí)間才能生成一秒音頻。

2.2 唇讀

唇讀（lipreading）是指根據(jù)說話人的嘴唇運(yùn)動(dòng)解碼出文本的任務(wù)。傳統(tǒng)的方法是將該問題分成兩步解決：設(shè)計(jì)或?qū)W習(xí)視覺特征、以及預(yù)測。最近的深度唇讀方法是可以端到端訓(xùn)練的（Wand et al., 2016; Chung & Zisserman, 2016a）。目前唇讀的準(zhǔn)確度已經(jīng)超過了人類。

Google DeepMind 與牛津大學(xué)合作的一篇論文《Lip Reading Sentences in the Wild》介紹了他們的模型經(jīng)過電視數(shù)據(jù)集的訓(xùn)練后，性能超越 BBC 的專業(yè)唇讀者。

該數(shù)據(jù)集包含 10 萬個(gè)音頻、視頻語句。音頻模型：LSTM，視頻模型：CNN + LSTM。這兩個(gè)狀態(tài)向量被饋送至最后的 LSTM，然后生成結(jié)果（字符）。

訓(xùn)練過程中使用不同類型的輸入數(shù)據(jù)：音頻、視頻、音頻+視頻。即，這是一個(gè)「多渠道」模型。

2.3 人工合成奧巴馬：嘴唇動(dòng)作和音頻的同步

華盛頓大學(xué)進(jìn)行了一項(xiàng)研究，生成美國前總統(tǒng)奧巴馬的嘴唇動(dòng)作。選擇奧巴馬的原因在于網(wǎng)絡(luò)上有他大量的視頻（17 小時(shí)高清視頻）。

研究者使用了一些技巧來改善該研究的效果。

3. 計(jì)算機(jī)視覺

3.1. OCR：谷歌地圖與街景

谷歌大腦團(tuán)隊(duì)在其文章中報(bào)道了如何把新的 OCR（光學(xué)字符識別）引擎引入其地圖中，進(jìn)而可以識別街頭的標(biāo)志與商標(biāo)。

在該技術(shù)的發(fā)展過程中，谷歌還給出了新的 FSNS（French Street Name Signs），它包含了大量的復(fù)雜案例。

為了識別標(biāo)志，網(wǎng)絡(luò)最多使用 4 張圖片。特征通過 CNN 提取，在空間注意力（考慮像素坐標(biāo)）的幫助下縮放，最后結(jié)果被饋送至 LSTM。

相同方法被用于識別廣告牌上店鋪名稱的任務(wù)上（存在大量噪音數(shù)據(jù)，網(wǎng)絡(luò)本身必須關(guān)注正確的位置）。這一算法被應(yīng)用到 800 億張圖片之上。

3.2 視覺推理

視覺推理指的是讓神經(jīng)網(wǎng)絡(luò)回答根據(jù)照片提出的問題。例如，「照片中有和黃色的金屬圓柱的尺寸相同的橡膠物體嗎？」這樣的問題對于機(jī)器是很困難的，直到最近，這類問題的回答準(zhǔn)確率才達(dá)到了 68.5%。

為了更深入地探索視覺推理的思想，并測試這種能力能否輕松加入目前已有的系統(tǒng)，DeepMind 的研究者們開發(fā)了一種簡單、即插即用的 RN 模塊，它可以加載到目前已有的神經(jīng)網(wǎng)絡(luò)架構(gòu)中。具備 RN 模塊的神經(jīng)網(wǎng)絡(luò)具有處理非結(jié)構(gòu)化輸入的能力（如一張圖片或一組語句），同時(shí)推理出事物其后隱藏的關(guān)系。

使用 RN 的網(wǎng)絡(luò)可以處理桌子上的各種形狀（球體、立方體等）物體組成的場景。為了理解這些物體之間的關(guān)系（如球體的體積大于立方體），神經(jīng)網(wǎng)絡(luò)必須從圖像中解析非結(jié)構(gòu)化的像素流，找出哪些數(shù)據(jù)代表物體。在訓(xùn)練時(shí)，沒有人明確告訴網(wǎng)絡(luò)哪些是真正的物體，它必須自己試圖理解，并將這些物體識別為不同類別（如球體和立方體），隨后通過 RN 模塊對它們進(jìn)行比較并建立「關(guān)系」（如球體大于立方體）。這些關(guān)系不是硬編碼的，而是必須由 RN 學(xué)習(xí)——這一模塊會比較所有可能性。最后，系統(tǒng)將所有這些關(guān)系相加，以產(chǎn)生場景中對所有形狀對的輸出。

目前的機(jī)器學(xué)習(xí)系統(tǒng)在 CLEVR 上標(biāo)準(zhǔn)問題架構(gòu)上的回答成功率為 68.5%，而人類的準(zhǔn)確率為 92.5%。但是使用了 RN 增強(qiáng)的神經(jīng)網(wǎng)絡(luò)，DeepMind 展示了超越人類表現(xiàn)的 95.5% 的準(zhǔn)確率。RN 增強(qiáng)網(wǎng)絡(luò)在 20 個(gè) bAbI 任務(wù)中的 18 個(gè)上得分均超過 95％，與現(xiàn)有的較先進(jìn)的模型相當(dāng)。值得注意的是，具有 RN 模塊的模型在某些任務(wù)上的得分具有優(yōu)勢（如歸納類問題），而已有模型則表現(xiàn)不佳。

下圖為視覺問答的架構(gòu)。問題在經(jīng)過 LSTM 處理后產(chǎn)生一個(gè)問題嵌入（question embedding），而圖像被一個(gè) CNN 處理后產(chǎn)生一組可用于 RN 的物體。物體（圖中用黃色、紅色和藍(lán)色表示）是在卷積處理后的圖像上使用特征圖向量構(gòu)建的。該 RN 網(wǎng)絡(luò)會根據(jù)問題嵌入來考慮所有物體對之間的關(guān)系，然后會整合所有這些關(guān)系來回答問題。

3.3 Pix2Code

哥本哈根的一家初創(chuàng)公司 UIzard Technologies 訓(xùn)練了一個(gè)神經(jīng)網(wǎng)絡(luò)，能夠把圖形用戶界面的截圖轉(zhuǎn)譯成代碼行，成功為開發(fā)者們分擔(dān)了部分網(wǎng)站設(shè)計(jì)流程。令人驚嘆的是，同一個(gè)模型能跨平臺工作，包括 iOS、Android 和 Web 界面，從目前的研發(fā)水平來看，該算法的準(zhǔn)確率達(dá)到了 77%。

為了實(shí)現(xiàn)這一點(diǎn)，研究者們需要分三個(gè)步驟來訓(xùn)練，首先，通過計(jì)算機(jī)視覺來理解 GUI 圖像和里面的元素（按鈕、條框等）。接下來模型需要理解計(jì)算機(jī)代碼，并且能生成在句法上和語義上都正確的樣本。最后的挑戰(zhàn)是把之前的兩步聯(lián)系起來，需要它用推測場景來生成描述文本。

雖然該工作展示了這樣一種能自動(dòng)生成 GUI 代碼的潛力系統(tǒng)，但該研究只是開發(fā)了這種潛力的皮毛。目前的 Pix2Code 模型由相對較少的參數(shù)組成，并且只能在相對較小的數(shù)據(jù)集上訓(xùn)練。而構(gòu)建更復(fù)雜的模型，并在更大的數(shù)據(jù)集上訓(xùn)練會顯著地提升代碼生成的質(zhì)量。并且采用各種正則化方法和實(shí)現(xiàn)注意力機(jī)制（attention mechanism [1]）也能進(jìn)一步提升生成代碼的質(zhì)量。同時(shí)該模型采用的獨(dú)熱編碼（one-hot encoding）并不會提供任何符號間關(guān)系的信息，而采用 word2vec [12] 那樣的詞嵌入模型可能會有所好轉(zhuǎn)。因此將圖片轉(zhuǎn)換為 UI 代碼的工作仍處于研究之中，目前尚未投入實(shí)際使用。

項(xiàng)目地址：https://github.com/tonybeltramelli/pix2code

3.4 SketchRNN：教機(jī)器畫畫

你可能看過谷歌的 Quick, Draw! 數(shù)據(jù)集，其目標(biāo)是 20 秒內(nèi)繪制不同物體的簡筆畫。谷歌收集該數(shù)據(jù)集的目的是教神經(jīng)網(wǎng)絡(luò)畫畫。

研究者使用 RNN 訓(xùn)練序列到序列的變分自編碼器（VAE）作為編解碼機(jī)制。

最終，該模型獲取表示原始圖像的隱向量（latent vector）。

解碼器可從該向量中提取圖畫，你可以改變它，生成新的簡筆畫。

甚至使用向量算術(shù)來繪制貓豬（catpig）：

3.5 GAN

GAN 是深度學(xué)習(xí)領(lǐng)域里的一個(gè)熱門話題。目前這種方法大多用于處理圖像，所以本文也主要介紹這一方面。GAN 的全稱為生成對抗網(wǎng)絡(luò)，是 2014 年由 Ian Goodfellow 及其蒙特利爾大學(xué)的同事們率先提出的。這是一種學(xué)習(xí)數(shù)據(jù)的基本分布的全新方法，讓生成出的人工對象可以和真實(shí)對象之間達(dá)到驚人的相似度。

GAN 背后的思想非常直觀：生成器和鑒別器兩個(gè)網(wǎng)絡(luò)彼此博弈。生成器的目標(biāo)是生成一個(gè)對象（比如人的照片），并使其看起來和真的一樣。而鑒別器的目標(biāo)就是找到生成出的結(jié)果和真實(shí)圖像之間的差異。鑒別器通常會從數(shù)據(jù)集中給出圖像用于對比。

由于很難找出兩個(gè)網(wǎng)絡(luò)之間的平衡點(diǎn)，訓(xùn)練通常難以連續(xù)進(jìn)行。大多數(shù)情況下鑒別器會獲勝，訓(xùn)練陷入停滯。盡管如此，由于鑒別器的設(shè)計(jì)可以幫助我們從損失函數(shù)設(shè)定這樣的復(fù)雜問題中解決出來（例如：提升圖片質(zhì)量），所以 GAN 獲得了眾多研究者的青睞。

典型的 GAN 訓(xùn)練結(jié)果——臥室和人臉。

在此之前，我們通常會考慮使用自編碼器（Sketch-RNN），讓其將原始數(shù)據(jù)編碼成隱藏表示。這和 GAN 中生成器所做的事情一樣。

你可以在這個(gè)項(xiàng)目中（http://carpedm20.github.io/faces/）找到使用向量生成圖片的方法。你可以自行嘗試調(diào)整向量，看看生成的人臉會如何變化。

這種算法在隱空間上同樣適用：「一個(gè)戴眼鏡的男人」減去「男人」加上「女人」就等于「一個(gè)戴眼鏡的女人」。

3.6 使用 GAN 改變面部年齡

如果在訓(xùn)練過程中獲得一個(gè)可控制的隱向量參數(shù)，我們就可以在推斷階段修改這個(gè)向量以控制圖像的生成屬性，這種方法被稱為條件 GAN。

論文 Face Aging With Conditional Generative Adversarial Networks 的作者使用在 IMDB 數(shù)據(jù)集上預(yù)訓(xùn)練模型而獲得年齡的預(yù)測方法，然后研究者基于條件 GAN 修改生成圖像的面部年齡。

3.7 專業(yè)攝影作品

谷歌已經(jīng)開發(fā)了另一個(gè)非常有意思的 GAN 應(yīng)用，即攝影作品的選擇和改進(jìn)。開發(fā)者在專業(yè)攝影作品數(shù)據(jù)集上訓(xùn)練 GAN，其中生成器試圖改進(jìn)照片的表現(xiàn)力（如更好的拍攝參數(shù)和減少對濾鏡的依賴等），判別器用于區(qū)分「改進(jìn)」的照片和真實(shí)的作品。

訓(xùn)練后的算法會通過 Google Street View 搜索較佳構(gòu)圖，獲得了一些專業(yè)級的和半專業(yè)級的作品評分。

3.8 pix2pix

伯克利人工智能研究室（BAIR）在 2016 年非常引人注目的研究 Image-to-Image Translation with Conditional Adversarial Networks 中，研究人員解決了圖像到圖像的生成問題。例如需要使用衛(wèi)星圖像創(chuàng)建地圖，或使用素描創(chuàng)建逼真的目標(biāo)紋理等。

這里有另一個(gè)非常成功的條件 GAN 應(yīng)用案例。在該情況下，條件將變?yōu)檎麖垐D像。此外，UNet 在圖像分割中十分受歡迎，經(jīng)常用于生成器的體系結(jié)構(gòu)，且該論文使用了新型 PatchGAN 分類器作為處理模糊圖像的判別器。

該論文的作者還發(fā)布了他們網(wǎng)絡(luò)的在線演示：https://affinelayer.com/pixsrv/

源代碼：https://github.com/phillipi/pix2pix

3.9 CycleGAN

為了應(yīng)用 Pix2Pix，我們需要包含了不同領(lǐng)域圖像對的數(shù)據(jù)集。收集這樣的數(shù)據(jù)集并不困難，但對于更復(fù)雜一點(diǎn)的轉(zhuǎn)換目標(biāo)或風(fēng)格化目標(biāo)等操作，原則上是找不到這樣的目標(biāo)對。

因此，Pix2Pix 的作者為了解決這樣的問題提出了在不同圖像領(lǐng)域之間轉(zhuǎn)換而不需要特定圖像對的 CycleGAN 模型，原論文為《Unpaired Image-to-Image Translation》。

該論文的主要想法是訓(xùn)練兩對生成器-判別器模型以將圖像從一個(gè)領(lǐng)域轉(zhuǎn)換為另一個(gè)領(lǐng)域，在這過程中我們要求循環(huán)一致性。即在序列地應(yīng)用生成器后，我們應(yīng)該得到一個(gè)相似于原始 L1 損失的圖像。因此我們需要一個(gè)循環(huán)損失函數(shù)（cyclic loss），它能確保生成器不會將一個(gè)領(lǐng)域的圖像轉(zhuǎn)換到另一個(gè)和原始圖像完全不相關(guān)的領(lǐng)域。

這個(gè)方法允許我們學(xué)習(xí)將馬映射到斑馬。

這樣的轉(zhuǎn)換通常是不穩(wěn)定的，并且經(jīng)常創(chuàng)建一些不成功的案例：

源代碼：https://github.com/junyanz/CycleGAN

3.10 腫瘤分子學(xué)的進(jìn)展

機(jī)器學(xué)習(xí)正在幫助改善醫(yī)療的手段，它除了在超聲波識別、MPI 和診斷等方面的應(yīng)用，還能尋找對抗癌癥的性藥物。

簡單來說，在對抗自編碼器（AAE）的幫助下，我們可以學(xué)習(xí)藥物分子的潛在表征，并用來搜索新的藥物結(jié)構(gòu)。該項(xiàng)研究中，研究者發(fā)現(xiàn)了 69 個(gè)分子，且有一半的分子可用來治療癌癥和其它一些比較嚴(yán)重的疾病。

3.11 對抗性攻擊

對抗性樣本這一領(lǐng)域也有非常大的活力，研究者希望找到這種令模型不穩(wěn)定的因素而提升識別性能。例如在 ImageNet 中，訓(xùn)練的模型在識別加了一些噪點(diǎn)的樣本會完全識別錯(cuò)誤，這樣加了噪點(diǎn)的圖像可能在我們?nèi)搜劭磥硎菦]有問題的。這一問題展現(xiàn)在下圖中，熊貓的圖像加了一點(diǎn)噪聲就會被錯(cuò)誤識別為長臂猿。

Goodfellow et al. (2014b) 表明，出現(xiàn)這些對抗樣本的主要原因之一是模型過度線性化。神經(jīng)網(wǎng)絡(luò)主要是基于線性模塊而構(gòu)建的，因此它們實(shí)現(xiàn)的整體函數(shù)被證明是高度線性的。雖然這些線性函數(shù)很容易優(yōu)化，但如果一個(gè)線性函數(shù)具有許多輸入，那么它的值可以非常迅速地改變。如果我們用 ? 改變每個(gè)輸入，那么權(quán)重為 w 的線性函數(shù)改變可以達(dá)到 ?∥w∥_1，如果 w 的維度較高，那么這會是一個(gè)非常大的數(shù)值。對抗訓(xùn)練通過鼓勵(lì)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)附近的局部區(qū)域恒定來限制這一高度敏感的局部線性行為。這可以被看作是一種明確地向監(jiān)督神經(jīng)網(wǎng)絡(luò)引入局部恒定先驗(yàn)的方法。

下面一個(gè)例子表示特殊的眼鏡可以欺騙人臉識別系統(tǒng)，所以在訓(xùn)練特定的模型時(shí)，我們需要考慮這種對抗性攻擊并使用對抗性樣本提高模型的魯棒性。

這種使用符號的方法也不能被正確地識別。

4 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)（RL）或使用了強(qiáng)化機(jī)制的學(xué)習(xí)也是機(jī)器學(xué)習(xí)中最有趣和發(fā)展活躍的方法之一。

該方法的本質(zhì)是在一個(gè)根據(jù)經(jīng)驗(yàn)給予獎(jiǎng)勵(lì)（正如人類的學(xué)習(xí)方式）的環(huán)境中學(xué)習(xí)智能體的成功行為。

RL 在游戲、機(jī)器人和系統(tǒng)控制（例如，交通）中被廣泛應(yīng)用。

當(dāng)然，每個(gè)人都已經(jīng)聽說了 AlphaGo 在游戲中擊敗過多個(gè)頂尖專業(yè)選手。研究者使用 RL 訓(xùn)練 AlphaGo 的過程是：讓機(jī)器通過自我對弈提升決策能力。

4.1 結(jié)合非受控輔助任務(wù)的強(qiáng)化訓(xùn)練

去年，DeepMind 通過使用 DQN 玩電子游戲取得了超越人類的表現(xiàn)。最近，人們已經(jīng)開發(fā)出了能讓機(jī)器玩更加復(fù)雜的游戲（如 Doom）的算法。

大多數(shù)研究關(guān)注于學(xué)習(xí)加速，因?yàn)閷W(xué)習(xí)智能體與環(huán)境交互的經(jīng)驗(yàn)需要在現(xiàn)代 GPU 上執(zhí)行很長時(shí)間的訓(xùn)練。

DeepMind 的博客（https://deepmind.com/blog/reinforcement-learning-unsupervised-auxiliary-tasks/）中報(bào)告了引入附加損失（輔助任務(wù)）的辦法，例如預(yù)測幀變化（像素控制）使智能體更充分地理解動(dòng)作的后果，可以顯著加快學(xué)習(xí)過程。

4.2 學(xué)習(xí)機(jī)器人

OpenAI 對在虛擬環(huán)境中訓(xùn)練智能體進(jìn)行了積極的研究，相比在現(xiàn)實(shí)世界中進(jìn)行實(shí)驗(yàn)要安全得多。

在其中一個(gè)研究中（https://blog.openai.com/robots-that-learn/），他們證明了一次性學(xué)習(xí)（one-shot learning）是可能實(shí)現(xiàn)的：在 VR 中的一個(gè)人展示如何執(zhí)行任務(wù)，并且算法只需要一次展示就能學(xué)會然后在實(shí)際條件下將其重現(xiàn)。

如果只有人類有這個(gè)能力就好了。:)

4.3 學(xué)習(xí)人類的偏好

這是 OpenAI（https://blog.openai.com/deep-reinforcement-learning-from-human-preferences/）和 DeepMind 都曾研究過的課題。基本目標(biāo)是智能體有一個(gè)任務(wù)，算法為人類提供兩個(gè)可能的解決方案，并指出那個(gè)更好。該過程需要重復(fù)迭代，并且算法接收來自學(xué)習(xí)如何解決問題的人類的 900 比特大小的反饋（二進(jìn)制標(biāo)記）。

一如既往，人類必須謹(jǐn)慎判斷，思考他教給機(jī)器究竟是什么。例如，評估器得出算法確實(shí)想要拿到某個(gè)物體，但實(shí)際上，人類只是想進(jìn)行一次模擬實(shí)驗(yàn)。

4.4 在復(fù)雜環(huán)境中的運(yùn)動(dòng)

這是 DeepMind 的另一項(xiàng)研究（https://deepmind.com/blog/producing-flexible-behaviours-simulated-environments/）。為了教會機(jī)器人執(zhí)行復(fù)雜的行為（行走、跳躍，等），甚至達(dá)到類似人體的動(dòng)作，你需要非常重視損失函數(shù)的選擇，以獲得想要的行為。然而，讓算法自身通過簡單的獎(jiǎng)勵(lì)機(jī)制學(xué)習(xí)復(fù)雜的行為或許會有更好的效果。

為了達(dá)到這個(gè)目標(biāo)，研究者通過構(gòu)建一個(gè)包含障礙物的復(fù)雜環(huán)境教智能體（人體模擬器）執(zhí)行復(fù)雜的動(dòng)作，結(jié)合簡單的獎(jiǎng)勵(lì)機(jī)制提高動(dòng)作質(zhì)量。

可以通過視頻查看研究取得的令人印象深刻的結(jié)果。

最后，我給出 OpenAI 近日發(fā)布的應(yīng)用強(qiáng)化學(xué)習(xí)的算法的鏈接（https://github.com/openai/baselines）。這個(gè)解決方案比標(biāo)準(zhǔn)的 DQN 方法更好。

5 其它

5.1 數(shù)據(jù)中心冷卻系統(tǒng)

在 2017 年 7 月，谷歌報(bào)告稱他們利用 DeepMind 的機(jī)器學(xué)習(xí)研究成果降低了數(shù)據(jù)中心的能耗。

基于來自數(shù)據(jù)中心的幾千個(gè)傳感器的信息，谷歌開發(fā)者訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)集成預(yù)測能量利用效率（PUE）以及更高效的數(shù)據(jù)中心管理方法。這是機(jī)器學(xué)習(xí)中非常令人印象深刻和重要的實(shí)際應(yīng)用案例。

5.2 通用模型

如你所知，已訓(xùn)練模型的任務(wù)遷移性能很差，因?yàn)槊總€(gè)模型都是為特定的任務(wù)而設(shè)計(jì)的。谷歌大腦的一篇論文（https://arxiv.org/abs/1706.05137）在通用模型的研究上跨出了一小步。

研究者訓(xùn)練了一個(gè)模型，可以執(zhí)行 8 個(gè)不同領(lǐng)域（文本、語音和圖像）的任務(wù)。例如，不同語言的翻譯、文本解析，以及圖像、語音識別。

為了達(dá)到這個(gè)目的，他們使用多種不同的模塊構(gòu)建了一個(gè)復(fù)雜的網(wǎng)絡(luò)架構(gòu)以處理不同的輸入數(shù)據(jù)并生成結(jié)果。編碼器/解碼器模塊包含三種類型：卷積、注意和 MoE（https://arxiv.org/abs/1701.06538）。

他們幾乎得到了完美的模型（作者并沒有細(xì)調(diào)超參數(shù)）。

模型中存在不同領(lǐng)域知識的遷移，即，相比使用大量數(shù)據(jù)訓(xùn)練的任務(wù)（無遷移），該模型能獲得幾乎相同的性能。并且這個(gè)模型在小數(shù)據(jù)任務(wù)上表現(xiàn)得更好（例如，文本解析）。

不同任務(wù)所需的模塊之間并不會互相干擾，有時(shí)甚至能互相輔助，例如，MoE 可以輔助 ImageNet 圖像識別任務(wù)。

模型的 GitHub 地址：https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/multimodel.py

5.3. 一小時(shí)訓(xùn)練 ImageNet

Facebook 在其博文中告訴我們其工程師能夠用 1 小時(shí)的時(shí)間通過 Imagenet 教會 ResNet-50 模型，不過其實(shí)現(xiàn)需要 256 塊 GPU (Tesla P100)。

他們通過 Gloo 和 Caffe2 實(shí)現(xiàn)分布式學(xué)習(xí)。為了更有效，采用大批量的學(xué)習(xí)策略很有必要：梯度平均、特定學(xué)習(xí)率等。

結(jié)果，當(dāng)從 8 塊 GPU 擴(kuò)展到 256 塊時(shí)，效率可高達(dá) 90%?，F(xiàn)在，F(xiàn)acebook 可以更快地進(jìn)行實(shí)驗(yàn)。

6. 新聞

6.1. 自動(dòng)駕駛

自動(dòng)駕駛領(lǐng)域正密集地發(fā)展，測試也在積極地開展。從最近事件中我們注意到英特爾收購 MobilEye，Uber 從谷歌剽竊自動(dòng)駕駛技術(shù)的丑聞，以及較早的自動(dòng)駕駛死亡案例等等。

這里我提醒一件事：谷歌 Waymo 推出了 beta 版。谷歌是該領(lǐng)域的先驅(qū)者，可以假定他們的技術(shù)很好，因?yàn)槠渥詣?dòng)駕駛汽車?yán)锍桃殉^ 300 萬英里。

更近的事件則有自動(dòng)駕駛汽車已在美國所有州允許上路測試。

6.2. 醫(yī)療

就像我說的，現(xiàn)代機(jī)器學(xué)習(xí)正開始應(yīng)用于醫(yī)療。比如，谷歌與某醫(yī)療中心展開合作提升診斷。DeepMind 甚至還為此成立了一個(gè)獨(dú)立部門。

在今年的 Data Science Bowl 上，有一個(gè)獎(jiǎng)金高達(dá) 100 萬美元的競賽，根據(jù)標(biāo)注圖像預(yù)測一年之中的肺癌情況。

6.3. 投資

正如之前的大數(shù)據(jù)，機(jī)器學(xué)習(xí)當(dāng)下也涌入了大量資本。中國在 AI 領(lǐng)域的投資高達(dá) 1500 億美元，從而成為行業(yè)領(lǐng)導(dǎo)者之一。

相比之下，百度研究院擁有 1300 名員工，而 Facebook FAIR 則只有 80 名。在今年閉幕的 KDD 2017 上，阿里巴巴介紹了其參數(shù)服務(wù)器鯤鵬，它帶有萬億個(gè)參數(shù)，并使得運(yùn)行 1000 億個(gè)樣本成為常規(guī)任務(wù)。

人工智能仍處于起步階段，入門學(xué)習(xí)機(jī)器學(xué)習(xí)永遠(yuǎn)不嫌晚。不管怎樣，所有開發(fā)者會慢慢用起機(jī)器學(xué)習(xí)，這項(xiàng)技術(shù)會成為程序員的必備技能之一，就像現(xiàn)在每個(gè)人都會使用數(shù)據(jù)庫一樣。 ?

原文鏈接：https://blog.statsbot.co/deep-learning-achievements-4c563e034257

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法，實(shí)際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報(bào)表系統(tǒng)等全方位知識

QQ群：81035754

云服務(wù)器 GPU云服務(wù)器深度學(xué)習(xí)從入門到精通 2017深度學(xué)習(xí) 深度學(xué)習(xí)從哪里入手基于深度學(xué)習(xí)的圖像識別進(jìn)展

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4701.html

發(fā)表評論

登陸后可評論

0條評論

kuangcaibao

男|高級講師

我要關(guān)注我要私信

TA的文章

jupyter安裝tensorflow

閱讀 1799·2023-04-25 15:51
SpringBoot集成Redis

閱讀 2507·2021-10-13 09:40
Facebook宣布“元宇宙”相關(guān)部門負(fù)責(zé)人晉升首席技術(shù)官

閱讀 2143·2021-09-23 11:22
浮動(dòng)布局錯(cuò)誤

閱讀 3250·2019-08-30 14:16
一次完整的react hooks實(shí)踐

閱讀 2665·2019-08-26 13:35
React Router4.0

閱讀 1858·2019-08-26 13:31
也來探討一下Object.assign

閱讀 884·2019-08-26 11:39
React源碼解析之React.children.map()

閱讀 2742·2019-08-26 10:33

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從Pix2Code到CycleGAN：2017年深度學(xué)習(xí)重大研究進(jìn)展全解讀

相關(guān)文章

中國數(shù)字產(chǎn)業(yè)迎來發(fā)展黃金期

用GAN去除動(dòng)作片中的馬賽克和衣服

發(fā)表評論

0條評論

kuangcaibao

男|高級講師

TA的文章

jupyter安裝tensorflow

SpringBoot集成Redis

Facebook宣布“元宇宙”相關(guān)部門負(fù)責(zé)人晉升首席技術(shù)官

浮動(dòng)布局錯(cuò)誤

一次完整的react hooks實(shí)踐

React Router4.0

也來探討一下Object.assign

React源碼解析之React.children.map()

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

從Pix2Code到CycleGAN：2017年深度學(xué)習(xí)重大研究進(jìn)展全解讀

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！