復(fù)雜的中國駕駛場景，正是深度學(xué)習(xí)的優(yōu)勢

tracymac7 發(fā)布于2019-04-25 18:02 / 1368人閱讀

摘要：如果這個場景足夠簡單的話，深度學(xué)習(xí)并不能表現(xiàn)出相對于其它基于傳統(tǒng)模式識別方法的優(yōu)勢。這是深度學(xué)習(xí)目前受到關(guān)注的一個非常重要的原因。通過積累大量的數(shù)據(jù)進行足夠的訓(xùn)練，基于深度學(xué)習(xí)的系統(tǒng)可以給出最優(yōu)規(guī)劃。

谷歌和李世石的人機大戰(zhàn)引爆了公眾對于人工智能的關(guān)注，也讓基于深度學(xué)習(xí)的人工智能成為汽車業(yè)界關(guān)注的重點，那么深度學(xué)習(xí)在智能駕駛的應(yīng)用場景下有什么幫助呢?

自動駕駛最先出現(xiàn)在美國，而不是歐洲或者日本，更不是中國，非常關(guān)鍵的一個原因在于，美國的駕駛環(huán)境相對于其它地區(qū)而言，是最簡單的，無論是道路情況還是駕駛習(xí)慣。這就意味著，開發(fā)一個自動駕駛原型產(chǎn)品的技術(shù)難度可以大大降低。

這種高度復(fù)雜的場景很難用有限的規(guī)則來定義清楚，所以傳統(tǒng)的算法的表現(xiàn)往往無法滿足自動駕駛的要求，而深度學(xué)習(xí)非常適合在復(fù)雜場景下的自動駕駛應(yīng)用。如果這個場景足夠簡單的話，深度學(xué)習(xí)并不能表現(xiàn)出相對于其它基于傳統(tǒng)模式識別方法的優(yōu)勢。

更具體一點來講，對于非結(jié)構(gòu)化數(shù)據(jù)的識別、判斷、分類是它的優(yōu)勢所在。圖像、語音都是非結(jié)構(gòu)化的，而像 Excel 表格上的數(shù)據(jù)，我們稱之為結(jié)構(gòu)化的數(shù)據(jù)。自動駕駛所面臨的環(huán)境，如果表達出來，正是非結(jié)構(gòu)化的數(shù)據(jù)，深度學(xué)習(xí)可以很好地處理這種場景。

深度學(xué)習(xí)的前沿技術(shù)

深度學(xué)習(xí)的發(fā)展其實有很長的歷史，它的原理從上世紀五十年代末期就已經(jīng)出，80 年代在手寫體數(shù)字的識別方面取得相當(dāng)?shù)某删?，并?yīng)用于美國的郵政系統(tǒng)。但其真正崛起還是在十年前開始的。

這里面其實是有時代的大背景的因素，這個時代提供了深度學(xué)習(xí)兩個最關(guān)鍵的助推引擎：大數(shù)據(jù)和高性能處理器。深度學(xué)習(xí)非常適合利用大數(shù)據(jù)提高性能，隨著用于訓(xùn)練的數(shù)據(jù)量不斷增加，深度學(xué)習(xí)的性能也得到持續(xù)的提升。

事實上到目前為止，我們還沒有發(fā)現(xiàn)其性能提升的上限。這是深度學(xué)習(xí)目前受到關(guān)注的一個非常重要的原因。過去很難獲得如此大量的數(shù)據(jù)，也缺乏足夠強勁的計算平臺，而今天隨著物聯(lián)網(wǎng)的發(fā)展，據(jù)獲取已經(jīng)不再是問題。另一方面，著單個處理器的性能進入 TFLOPS 時代，深度學(xué)習(xí)所需要海量計算已經(jīng)在經(jīng)濟上變得可承受了。谷歌的 AlphaGo 的計算能力是當(dāng)年擊敗國際象棋冠軍的 IBM 深藍的三萬倍。要知道當(dāng)年的深藍可是大型機，成本不是一般應(yīng)用可以承受的。

從 2012 年 Hinton 和他的學(xué)生 Alex 在國際上權(quán)威的圖像識別領(lǐng)域 Imagenet 比賽奪冠以來，深度學(xué)習(xí)目前已經(jīng)可以達到 97%的識別準(zhǔn)確率，超過普通人的 95% 的識別準(zhǔn)確率。機器視覺的識別能力超過人類，這是人工智能領(lǐng)域了不起的成就，而這一切在僅僅 4 年的時間內(nèi)就實現(xiàn)，則更凸顯了深度學(xué)習(xí)的潛力和業(yè)界的研究熱潮。深度學(xué)習(xí)還在持續(xù)擴展其潛力，在人臉識別方面的準(zhǔn)確率可達 99.5%以上（基于 LFW 數(shù)據(jù)庫）。

很多人也會問，到底深度學(xué)習(xí)是一個什么樣的東西？要用簡單的話解釋清楚其實是一件很有挑戰(zhàn)性的事情，它涉及很多較為抽象的基礎(chǔ)知識，比較形象地描述：深度學(xué)習(xí)其實是對人的大腦識別機制的模擬。

舉個例子，我看到對面走來一個人，瞬間就可以判斷出這個人是我的同事。眼睛獲取的影像有幾十萬像素，需要上百萬字節(jié)去描述，而大腦經(jīng)過處理后，可以將它簡化為幾個字節(jié)，就是同事的名字。人的大腦可以非常高效地處理海量的非結(jié)構(gòu)化數(shù)據(jù)，把其中的內(nèi)容識別出來，用極其精簡的信息去描述。這也正是深度學(xué)習(xí)的本質(zhì)——把復(fù)雜信息精簡地表達出來。

技術(shù)化的描述是：基于數(shù)據(jù)驅(qū)動的、自動學(xué)習(xí)要建模的數(shù)據(jù)的潛在（隱含）分布的多層（復(fù)雜）表達的算法（車云菌表示讀完以后，舌頭已經(jīng)不好使了）。目前深度學(xué)習(xí)使用最多的建模技術(shù)是多層卷積神經(jīng)網(wǎng)絡(luò)，并建立大量的隱含層（可達上百層）。

這個技術(shù)出現(xiàn)已經(jīng)很久了，但在此之前一直表現(xiàn)不好，那個時候大家都是在小規(guī)模樣本下進行的，對于參數(shù)的調(diào)整非常困難。深度學(xué)習(xí)一個較大的突破就是，將參數(shù)的計算自動化，人不再進行干預(yù)，而是讓它通過大量的數(shù)據(jù)學(xué)習(xí)，自己確定這個參數(shù)。

深度學(xué)習(xí)的技術(shù)也在快速演進，比如 LSTM（長短期記憶模型）的使用，賦予深度神經(jīng)網(wǎng)絡(luò)保存狀態(tài)的能力。也就是，我們將賦予機器記憶的能力。

它的用途在哪里呢？拿玩游戲來說。比如射擊類的游戲，目前基于深度學(xué)習(xí)和增強學(xué)習(xí)的人工智能系統(tǒng)可以有非常出色的表現(xiàn)，因為它不需要記住過去的游戲狀態(tài)，而當(dāng)機器玩一些策略類游戲的時候，比如星際爭霸，沒有記憶能力導(dǎo)致它無法進行長時間跨度的策略規(guī)劃，與人的表現(xiàn)就相差甚遠。

LSTM 使得深度神經(jīng)網(wǎng)絡(luò)從一個二維空間網(wǎng)絡(luò)變成了一個時空結(jié)構(gòu)的網(wǎng)絡(luò)，即在時間尺度上也表現(xiàn)出深度，結(jié)果就是機器不需要從頭開始認知，而是把過去和現(xiàn)在連接在一起，規(guī)劃下一步的行動。顯然，這讓大型的策略類游戲成為機器的下一個征服目標(biāo)。上周傳出消息 AlphaGo 要在今年內(nèi)對戰(zhàn)柯潔，期待一下 AlphaGo 的下一次驚艷出場吧。

深度學(xué)習(xí)的注意力模型也是一個技術(shù)熱點，它是對整個場景進行語義級別的理解，可以讓機器鎖定圖像中我們需要關(guān)注的部分。在未來幾年，這些技術(shù)可以讓機器理解視頻流，并將其轉(zhuǎn)化為直接的語義述。這么說吧，結(jié)合上面的技術(shù)，機器可以跟你一起看電影，并分享對于電影的理解(單身狗的福利呀，一個人去電影院也不會感到寂寞了，只要帶著你的機器寵物一起去) 。

總體來講，具備深度學(xué)習(xí)能力的設(shè)備就好像是一個有生命力的機器，它會隨著數(shù)據(jù)訓(xùn)練的過程逐步成長，它的本領(lǐng)是可以持續(xù)提高的，而且這種本領(lǐng)可以被復(fù)制到另一個設(shè)備中。

深度學(xué)習(xí)與增強學(xué)習(xí)雙管齊下通往自動駕駛

深度學(xué)習(xí)對感知有非常強的能力，可以理解各種復(fù)雜圖像的含義，但是它并不能把這種感知轉(zhuǎn)化為決策能力。增強學(xué)習(xí)就是用來解決這個問題。

如果打個比方的話，增強學(xué)習(xí)借鑒了馴獸員的方法，不教動物們?nèi)魏我?guī)則(當(dāng)然也教不會呀)，一開始讓動物們隨便地做各種動作。當(dāng)其中有一個動作是符合期望的時候，立即給它們好吃的，就是增強了它們繼續(xù)這個動作的動力。隨著訓(xùn)練時間和次數(shù)的增加，動物們就會真的在頭腦里建立一個規(guī)則：做某個動作可以得到好吃的。因而，將其稱之為「增強（reinforcement）」學(xué)習(xí)的原因。

某種意義上，這也借鑒了管理學(xué)上的結(jié)果導(dǎo)向的理念，有兩個關(guān)鍵點：第一，只看重結(jié)果，不關(guān)心過程或者動機；第二，對于每一次行動，及時獎懲，強化認知。

自動駕駛的整個系統(tǒng)，一般來說由三個層級組成：感知層、規(guī)劃決策層和控制執(zhí)行層。深度學(xué)習(xí)和增強學(xué)習(xí)結(jié)合的結(jié)果，會使得感知和執(zhí)行以前所未有地方式真正緊密地結(jié)合在一起，完成自動駕駛。

1.感知

感知層的任務(wù)是完成環(huán)境態(tài)勢感知，這個是自動駕駛的核心環(huán)節(jié)。在自動駕駛中，任何執(zhí)行動作都要以理解整個駕駛環(huán)境為前提。這里面分為兩層：車外環(huán)境和車內(nèi)環(huán)境。

對于車外環(huán)境，首先是多種傳感器的輸入，比如多攝像頭、毫米波雷達以及激光雷達等，通過融合映射到一個統(tǒng)一的坐標(biāo)系中，這些圖像信息需要進行物體的識別和分類，比如車道、路肩、車輛、行人等等，這正是深度學(xué)習(xí)的優(yōu)勢。利用深度學(xué)習(xí)，在計算系統(tǒng)中重構(gòu)出來一個 3D 環(huán)境，這個環(huán)境中的各個物體都會被識別并理解。

對于車內(nèi)環(huán)境，是指對車內(nèi)駕駛員的感知，包括其疲勞程度、駕駛意圖等，這將給后面的決策控制提供決策基礎(chǔ)信息，如疲勞檢測系統(tǒng)在檢測到駕駛員進入嚴重的疲勞狀態(tài)后，自動將駕駛狀態(tài)從人工操控轉(zhuǎn)為自動駕駛。

2.局部路徑規(guī)劃

這里需要對整個車外環(huán)境中車輛、交通狀況和行人等的意圖或者在一段時間內(nèi)的行為進行預(yù)測，再根據(jù)本車的狀態(tài)和意圖，結(jié)合前面的環(huán)境感知結(jié)果和高精度地圖提供的道路信息等，規(guī)劃出較佳的行駛路徑，這個規(guī)劃需要可以滿足駕駛意圖，并對周圍的車輛友好、安全。

通過積累大量的數(shù)據(jù)進行足夠的訓(xùn)練，基于深度學(xué)習(xí)的系統(tǒng)可以給出最優(yōu)規(guī)劃。當(dāng)然，這種規(guī)劃不能單純依賴深度學(xué)習(xí)的預(yù)判，它必須和交通規(guī)則的專家系統(tǒng)，以及其它高可靠性手段結(jié)合，才可以達到實用。例如 V2X 的普及，會使得本車可以在超視距范圍內(nèi)，較精確地獲取周圍車輛的位置、速度以及駕駛意圖（轉(zhuǎn)彎/變道）等。

3.決策控制

在路徑規(guī)劃確定后，自動駕駛系統(tǒng)需要進行本車意圖決策，比如什么時候進行超車、什么時候轉(zhuǎn)彎、選擇什么時機進行變道是最優(yōu)的等等。自動駕駛系統(tǒng)需要學(xué)習(xí)人類開車的習(xí)慣，學(xué)會如何在復(fù)雜的會車場景下進行操作、保持合理的車距等，更進一步地，學(xué)習(xí)主人的開車習(xí)慣，在滿足安全性的前提下，盡量使自動駕駛的風(fēng)格與其開車行為相適應(yīng)，提供更好的用戶體驗，并優(yōu)化自己的駕駛效率。很顯然，這里增強學(xué)習(xí)是非常適合的技術(shù)。

目前，前沿的研究人員正利用深度學(xué)習(xí)和增強學(xué)習(xí)開展一些非常炫酷的功能，例如完成從原始傳感器數(shù)據(jù)到實際動作執(zhí)行器的直接過渡。

在今年的 CES 展上，豐田展示了一套類似的自動駕駛演示系統(tǒng)，在一塊布有障礙并有指示方向的方形地形中，8 輛沒有駕駛經(jīng)驗的模型車，將傳感器監(jiān)測到的環(huán)境信息輸入深度學(xué)習(xí)系統(tǒng)，并將深度學(xué)習(xí)系統(tǒng)與油門、制動和方向輸出連接。經(jīng)歷約 4 個小時的學(xué)習(xí)后，基本實現(xiàn)了零事故。

自動駕駛的測試是一個非常耗時、費錢的工作，谷歌累計的自動駕駛實際道路測試里程已經(jīng)超過 100 萬英里，如何更高效地測試也是自動駕駛領(lǐng)域的一個關(guān)鍵問題。

從理論上講，我們可以用計算系統(tǒng)去模擬實際道路的情形，如果我們可以對道路上的各個要素進行準(zhǔn)確地建模，并且模擬這些要素的行為，例如超車、剎車、變道。利用蒙特卡洛模擬，配合增強學(xué)習(xí)的技術(shù)，就能構(gòu)建一個自主運行的系統(tǒng)。這個系統(tǒng)本身在不需要耗費一滴汽油的情況下，產(chǎn)生大量的模擬場景，發(fā)現(xiàn)自動駕駛原型的各種缺陷，并獲得大量的數(shù)據(jù)。就像谷歌訓(xùn)練它的 AlphaGo 一樣。

車云小結(jié)

去年 10 月，豐田宣布投入 10 億美元，設(shè)立一家專注于研發(fā)人工智能的新公司 Toyota Research Institute，希望打造像人類一樣會自己「思考」的、可以應(yīng)對突發(fā)情況的汽車，讓自動駕駛技術(shù)更加可靠。

去年年底，豐田還投資了 Preferred Networks，另外一家深度學(xué)習(xí)領(lǐng)域的初創(chuàng)公司，通用則直接收購了初創(chuàng)公司 Cruise Automation，只要看名字你就知道這家公司是干什么的。

真金白銀的投入，其背后折射出的是車廠對于深度學(xué)習(xí)技術(shù)的認可。奧迪在 2015 年首次在美國從硅谷自動駕駛至拉斯維加斯測試其基于 A7 的自動駕駛汽車時，就明確表示：“自動駕駛的關(guān)鍵是深度學(xué)習(xí)”。

作者簡介，本文作者李星宇，現(xiàn)地平線機器人汽車業(yè)務(wù)總監(jiān)，前飛思卡爾應(yīng)用處理器汽車業(yè)務(wù)市場經(jīng)理，原士蘭微電子安全技術(shù)專家。

歡迎加入本站公開興趣群

商業(yè)智能與數(shù)據(jù)分析群

興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法，實際應(yīng)用案例分享與討論，分析工具，ETL工具，數(shù)據(jù)倉庫，數(shù)據(jù)挖掘工具，報表系統(tǒng)等全方位知識

QQ群：81035754

GPU云服務(wù)器云服務(wù)器深度學(xué)習(xí)的優(yōu)勢深度學(xué)習(xí)的深度深度學(xué)習(xí)的學(xué)習(xí) 學(xué)習(xí)深度學(xué)習(xí)的

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/4361.html

發(fā)表評論

登陸后可評論

0條評論

tracymac7

男|高級講師

我要關(guān)注我要私信

TA的文章

深入理解取整、取余與取模問題

閱讀 3955·2021-11-17 09:33
程序員的自我修養(yǎng) 第四章實現(xiàn)C語言運行庫

閱讀 3296·2021-10-08 10:05
如何使用云主機-云主機怎么使用？

閱讀 3124·2021-09-22 15:36
Postman接口自動化測試之——批量執(zhí)行（集合操作）

閱讀 1151·2021-09-06 15:02
十幾行代碼教你實現(xiàn)一個最簡版的promise

閱讀 2780·2019-08-29 12:45
Javascript運行機制

閱讀 1599·2019-08-26 13:40
ES6常用知識學(xué)習(xí)札記

閱讀 3409·2019-08-26 13:37
KOA2框架原理解析和實現(xiàn)

閱讀 431·2019-08-26 13:37

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

復(fù)雜的中國駕駛場景，正是深度學(xué)習(xí)的優(yōu)勢

相關(guān)文章

2019CES釋放B端崛起全球信號百度智能云市場預(yù)言又成真

**深度學(xué)習(xí)的天賜和詛咒：最大的優(yōu)勢也是最大的缺陷**

發(fā)表評論

0條評論

tracymac7

男|高級講師

TA的文章

深入理解取整、取余與取模問題

程序員的自我修養(yǎng) 第四章實現(xiàn)C語言運行庫

如何使用云主機-云主機怎么使用？

Postman接口自動化測試之——批量執(zhí)行（集合操作）

十幾行代碼教你實現(xiàn)一個最簡版的promise

Javascript運行機制

ES6常用知識學(xué)習(xí)札記

KOA2框架原理解析和實現(xiàn)

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

復(fù)雜的中國駕駛場景，正是深度學(xué)習(xí)的優(yōu)勢

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

復(fù)雜的中國駕駛場景，正是深度學(xué)習(xí)的優(yōu)勢