摘要:如果這個場景足夠簡單的話,深度學(xué)習(xí)并不能表現(xiàn)出相對于其它基于傳統(tǒng)模式識別方法的優(yōu)勢。這是深度學(xué)習(xí)目前受到關(guān)注的一個非常重要的原因。通過積累大量的數(shù)據(jù)進行足夠的訓(xùn)練,基于深度學(xué)習(xí)的系統(tǒng)可以給出最優(yōu)規(guī)劃。
谷歌和李世石的人機大戰(zhàn)引爆了公眾對于人工智能的關(guān)注,也讓基于深度學(xué)習(xí)的人工智能成為汽車業(yè)界關(guān)注的重點,那么深度學(xué)習(xí)在智能駕駛的應(yīng)用場景下有什么幫助呢?
自動駕駛最先出現(xiàn)在美國,而不是歐洲或者日本,更不是中國,非常關(guān)鍵的一個原因在于,美國的駕駛環(huán)境相對于其它地區(qū)而言,是最簡單的,無論是道路情況還是駕駛習(xí)慣。這就意味著,開發(fā)一個自動駕駛原型產(chǎn)品的技術(shù)難度可以大大降低。
這種高度復(fù)雜的場景很難用有限的規(guī)則來定義清楚,所以傳統(tǒng)的算法的表現(xiàn)往往無法滿足自動駕駛的要求,而深度學(xué)習(xí)非常適合在復(fù)雜場景下的自動駕駛應(yīng)用。如果這個場景足夠簡單的話,深度學(xué)習(xí)并不能表現(xiàn)出相對于其它基于傳統(tǒng)模式識別方法的優(yōu)勢。
更具體一點來講,對于非結(jié)構(gòu)化數(shù)據(jù)的識別、判斷、分類是它的優(yōu)勢所在。圖像、語音都是非結(jié)構(gòu)化的,而像 Excel 表格上的數(shù)據(jù),我們稱之為結(jié)構(gòu)化的數(shù)據(jù)。自動駕駛所面臨的環(huán)境,如果表達出來,正是非結(jié)構(gòu)化的數(shù)據(jù),深度學(xué)習(xí)可以很好地處理這種場景。
深度學(xué)習(xí)的前沿技術(shù)
深度學(xué)習(xí)的發(fā)展其實有很長的歷史,它的原理從上世紀五十年代末期就已經(jīng)出,80 年代在手寫體數(shù)字的識別方面取得相當(dāng)?shù)某删?,并?yīng)用于美國的郵政系統(tǒng)。但其真正崛起還是在十年前開始的。
這里面其實是有時代的大背景的因素,這個時代提供了深度學(xué)習(xí)兩個最關(guān)鍵的助推引擎:大數(shù)據(jù)和高性能處理器。深度學(xué)習(xí)非常適合利用大數(shù)據(jù)提高性能,隨著用于訓(xùn)練的數(shù)據(jù)量不斷增加,深度學(xué)習(xí)的性能也得到持續(xù)的提升。
事實上到目前為止,我們還沒有發(fā)現(xiàn)其性能提升的上限。這是深度學(xué)習(xí)目前受到關(guān)注的一個非常重要的原因。過去很難獲得如此大量的數(shù)據(jù),也缺乏足夠強勁的計算平臺,而今天隨著物聯(lián)網(wǎng)的發(fā)展,據(jù)獲取已經(jīng)不再是問 題。另一方面,著單個處理器的性能進入 TFLOPS 時代,深度學(xué)習(xí)所需要海量計算已經(jīng)在經(jīng)濟上變得可承受了。谷歌的 AlphaGo 的計算能力是當(dāng)年擊敗國際象棋冠軍的 IBM 深藍的三萬倍。要知道當(dāng)年的深藍可是大型機,成本不是一般應(yīng)用可以承受的。
從 2012 年 Hinton 和他的學(xué)生 Alex 在國際上權(quán)威的圖像識別領(lǐng)域 Imagenet 比賽奪冠以來,深度學(xué)習(xí)目前已經(jīng)可以達到 97%的識別準(zhǔn)確率,超過普通人的 95% 的識別準(zhǔn)確率。機器視覺的識別能力超過人類,這是人工智能領(lǐng)域了不起的成就, 而這一切在僅僅 4 年的時間內(nèi)就實現(xiàn),則更凸顯了深度學(xué)習(xí)的潛力和業(yè)界的研究 熱潮。深度學(xué)習(xí)還在持續(xù)擴展其潛力,在人臉識別方面的準(zhǔn)確率可達 99.5%以 上(基于 LFW 數(shù)據(jù)庫)。
很多人也會問,到底深度學(xué)習(xí)是一個什么樣的東西?要用簡單的話解釋清楚其實是一件很有挑戰(zhàn)性的事情,它涉及很多較為抽象的基礎(chǔ)知識,比較形象地描述:深度學(xué)習(xí)其實是對人的大腦識別機制的模擬。
舉個例子,我看到對面走來一個人,瞬間就可以判斷出這個人是我的同事。眼睛獲取的影像有幾十萬像素, 需要上百萬字節(jié)去描述,而大腦經(jīng)過處理后,可以將它簡化為幾個字節(jié),就是同事的名字。人的大腦可以非常高效地處理海量的非結(jié)構(gòu)化數(shù)據(jù),把其中的內(nèi)容識別出來,用極其精簡的信息去描述。這也正是深度學(xué)習(xí)的本質(zhì)——把復(fù)雜信息精簡地表達出來。
技術(shù)化的描述是:基于數(shù)據(jù)驅(qū)動的、自動學(xué)習(xí)要建模的數(shù)據(jù)的潛在(隱含)分布的多層(復(fù)雜)表達的算法(車云菌表示讀完以后,舌頭已經(jīng)不好使了)。目前深度學(xué)習(xí)使用最多的建模技術(shù)是多層卷積神經(jīng)網(wǎng)絡(luò),并建立大量的隱含層(可達上百層)。
這個技術(shù)出現(xiàn)已經(jīng)很久了,但在此之前一直表現(xiàn)不好,那個時候大家都是在小規(guī)模樣本下進行的,對于參數(shù)的調(diào)整非常困難。深度學(xué)習(xí)一個較大的突破就是,將參數(shù)的計算自動化,人不再進行干預(yù),而是讓它通過大量的數(shù)據(jù)學(xué)習(xí),自己確定這個參數(shù)。
深度學(xué)習(xí)的技術(shù)也在快速演進,比如 LSTM(長短期記憶模型)的使用,賦予深度神經(jīng)網(wǎng)絡(luò)保存狀態(tài)的能力。也就是,我們將賦予機器記憶的能力。
它的用途在哪里呢?拿玩游戲來說。比如射擊類的游戲,目前基于深度學(xué)習(xí)和增強學(xué)習(xí)的人工智能系統(tǒng)可以有非常出色的表現(xiàn),因為它不需要記住過去的游戲狀態(tài),而當(dāng)機器玩一些策略類游戲 的時候,比如星際爭霸,沒有記憶能力導(dǎo)致它無法進行長時間跨度的策略規(guī)劃,與人的表現(xiàn)就相差甚遠。
LSTM 使得深度神經(jīng)網(wǎng)絡(luò)從一個二維空間網(wǎng)絡(luò)變成了一 個時空結(jié)構(gòu)的網(wǎng)絡(luò),即在時間尺度上也表現(xiàn)出深度,結(jié)果就是機器不需要從頭開始認知,而是把過去和現(xiàn)在連接在一起,規(guī)劃下一步的行動。顯然,這讓大型的策略類游戲成為機器的下一個征服目標(biāo)。上周傳出消息 AlphaGo 要在今年內(nèi)對戰(zhàn)柯潔,期待一下 AlphaGo 的下一次驚艷出場吧。
深度學(xué)習(xí)的注意力模型也是一個技術(shù)熱點,它是對整個場景進行語義級別的理解,可以讓機器鎖定圖像中我們需要關(guān)注的部分。在未來幾年,這些技術(shù)可以讓機器理解視頻流,并將其轉(zhuǎn)化為直接的語義述。這么說吧,結(jié)合上面的技術(shù),機器可以跟你一起看電影,并分享對于電影的理解(單身狗的福利呀,一個人去電影院也不會感到寂寞了,只要帶著你的機器寵物一起去) 。
總體來講,具備深度學(xué)習(xí)能力的設(shè)備就好像是一個有生命力的機器,它會隨著數(shù)據(jù)訓(xùn)練的過程逐步成長,它的本領(lǐng)是可以持續(xù)提高的,而且這種本領(lǐng)可以被復(fù)制到另一個設(shè)備中。
深度學(xué)習(xí)與增強學(xué)習(xí)雙管齊下通往自動駕駛
深度學(xué)習(xí)對感知有非常強的能力,可以理解各種復(fù)雜圖像的含義,但是它并不能把這種感知轉(zhuǎn)化為決策能力。增強學(xué)習(xí)就是用來解決這個問題。
如果打個比方的話,增強學(xué)習(xí)借鑒了馴獸員的方法,不教動物們?nèi)魏我?guī)則(當(dāng)然也教不會呀), 一開始讓動物們隨便地做各種動作。當(dāng)其中有一個動作是符合期望的時候,立即給它們好吃的,就是增強了它們繼續(xù)這個動作的動力。隨著訓(xùn)練時間和次數(shù)的增加,動物們就會真的在頭腦里建立一個規(guī)則:做某個動作可以得到好吃的。因而,將其稱之為「增強(reinforcement)」學(xué)習(xí)的原因。
某種意義上,這也借鑒了管理學(xué)上的結(jié)果導(dǎo)向的理念,有兩個關(guān)鍵點:第一,只看重結(jié)果,不關(guān)心過程或者動機;第二,對于每一次行動,及時獎懲,強化認知。
自動駕駛的整個系統(tǒng),一般來說由三個層級組成:感知層、規(guī)劃決策層和控制執(zhí)行層。深度學(xué)習(xí)和增強學(xué)習(xí)結(jié)合的結(jié)果,會使得感知和執(zhí)行以前所未有地方式真正緊密地結(jié)合在一起,完成自動駕駛。
1.感知
感知層的任務(wù)是完成環(huán)境態(tài)勢感知,這個是自動駕駛的核心環(huán)節(jié)。在自動駕駛中,任何執(zhí)行動作都要以理解整個駕駛環(huán)境為前提。這里面分為兩層:車外環(huán)境和車內(nèi)環(huán)境。
對于車外環(huán)境,首先是多種傳感器的輸入,比如多攝像頭、毫米波雷達以及激光雷達等,通過融合映射到一個統(tǒng)一的坐標(biāo)系中,這些圖像信息需要進行物體的識別和分類,比如車道、路肩、車輛、行人等等,這正是深度學(xué)習(xí)的優(yōu)勢。利用深度學(xué)習(xí),在計算系統(tǒng)中重構(gòu)出來一個 3D 環(huán)境,這個環(huán)境中的各個物體都會被識別并理解。
對于車內(nèi)環(huán)境,是指對車內(nèi)駕駛員的感知,包括其疲勞程度、駕駛意圖等,這將給后面的決策控制提供決策基礎(chǔ)信息,如疲勞檢測系統(tǒng)在檢測到駕駛員進入嚴重的疲勞狀態(tài)后,自動將駕駛狀態(tài)從人工操控轉(zhuǎn)為自動駕駛。
2.局部路徑規(guī)劃
這里需要對整個車外環(huán)境中車輛、交通狀況和行人等的意圖或者在一段時間內(nèi)的行為進行預(yù)測,再根據(jù)本車的狀態(tài)和意圖,結(jié)合前面的環(huán)境感知結(jié)果和高精度地圖提供的道路信息等,規(guī)劃出較佳的行駛路徑,這個規(guī)劃需要可以滿足駕駛意圖,并對周圍的車輛友好、安全。
通過積累大量的數(shù)據(jù)進行足夠的訓(xùn)練,基于深度學(xué)習(xí)的系統(tǒng)可以給出最優(yōu)規(guī)劃。當(dāng)然,這種規(guī)劃不能單純依賴深度學(xué)習(xí)的預(yù)判,它必須和交通規(guī)則的專家系統(tǒng),以及其它高可靠性手段結(jié)合,才可以達到實用。例如 V2X 的普及,會使得本車可以在超視距范圍內(nèi),較精確地獲取周圍車輛的位置、速度以及駕駛意圖(轉(zhuǎn)彎/變道)等。
3.決策控制
在路徑規(guī)劃確定后,自動駕駛系統(tǒng)需要進行本車意圖決策,比如什么時候進行超車、什么時候轉(zhuǎn)彎、選擇什么時機進行變道是最優(yōu)的等等。自動駕駛系統(tǒng)需要學(xué)習(xí)人類開車的習(xí)慣,學(xué)會如何在復(fù)雜的會車場景下進行操作、保持合理的車距等,更進一步地,學(xué)習(xí)主人的開車習(xí)慣,在滿足安全性的前提下,盡量使自動駕駛的風(fēng)格與其開車行為相適應(yīng),提供更好的用戶體驗,并優(yōu)化自己的駕駛效率。很顯然,這里增強學(xué)習(xí)是非常適合的技術(shù)。
目前,前沿的研究人員正利用深度學(xué)習(xí)和增強學(xué)習(xí)開展一些非常炫酷的功能,例如完成從原始傳感器數(shù)據(jù)到實際動作執(zhí)行器的直接過渡。
在今年的 CES 展上,豐田展示了一套類似的自動駕駛演示系統(tǒng),在一塊布有障礙并有指示方向的方形地形中,8 輛沒有駕駛經(jīng)驗的模型車,將傳感器監(jiān)測到的環(huán)境信息輸入深度學(xué)習(xí)系統(tǒng),并將深度學(xué)習(xí)系統(tǒng)與油門、制動和方向輸出連接。經(jīng)歷約 4 個小時的學(xué)習(xí)后, 基本實現(xiàn)了零事故。
自動駕駛的測試是一個非常耗時、費錢的工作,谷歌累計的自動駕駛實際道路測試里程已經(jīng)超過 100 萬英里,如何更高效地測試也是自動駕駛領(lǐng)域的一個關(guān)鍵問題。
從理論上講,我們可以用計算系統(tǒng)去模擬實際道路的情形,如果我們可以對道路上的各個要素進行準(zhǔn)確地建模, 并且模擬這些要素的行為,例如超車、剎車、變道。利用蒙特卡洛模擬,配合增強學(xué)習(xí)的技術(shù),就能構(gòu)建一個自主運行的系統(tǒng)。這個系統(tǒng)本身在不需要耗費一滴汽油的情況下,產(chǎn)生大量的模擬場景,發(fā)現(xiàn)自動駕駛原型的各種缺陷,并獲得大量的數(shù)據(jù)。就像谷歌訓(xùn)練它的 AlphaGo 一樣。
車云小結(jié)
去年 10 月,豐田宣布投入 10 億美元,設(shè)立一家專注于研發(fā)人工智能的新公司 Toyota Research Institute,希望打造像人類一樣會自己「思考」的、可以應(yīng)對突發(fā)情況的汽車, 讓自動駕駛技術(shù)更加可靠。
去年年底,豐田還投資了 Preferred Networks,另外一家深度學(xué)習(xí)領(lǐng)域的初創(chuàng)公司,通用則直接收購了初創(chuàng)公司 Cruise Automation,只要看名字你就知道這家公司是干什么的。
真金白銀的投入,其背后折射出的是車廠對于深度學(xué)習(xí)技術(shù)的認可。奧迪在 2015 年首次在美國從硅谷自動駕駛至拉斯維加斯測試其基于 A7 的自動駕駛汽車時,就明確表示:“自動駕駛的關(guān)鍵是深度學(xué)習(xí)”。
作者簡介,本文作者李星宇,現(xiàn)地平線機器人汽車業(yè)務(wù)總監(jiān),前飛思卡爾應(yīng)用處理器汽車業(yè)務(wù)市場經(jīng)理,原士蘭微電子安全技術(shù)專家。
歡迎加入本站公開興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價值的辦法,實際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘工具,報表系統(tǒng)等全方位知識
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/4361.html
摘要:百度智能云戰(zhàn)略。年月份百度云智峰會上,百度智能云正式發(fā)布了戰(zhàn)略,以打造最落地的最安全的最先進的,并推出了平臺,擁有深度學(xué)習(xí)對話式搜索自然語言處理等能力,涵蓋了模型標(biāo)注平臺一體機定制化訓(xùn)練平臺等產(chǎn)品。美國時間1月8日至11日,2019年國際消費類電子產(chǎn)品展覽會(CES)在拉斯維加斯開幕。作為全球科技風(fēng)向標(biāo),CES將引領(lǐng)新一年科技界潮流。2019CES,從智能家居到AR/VR等虛擬現(xiàn)實技術(shù)、穿戴...
摘要:深度學(xué)習(xí)的天賜和詛咒上面那個新學(xué)生的例子,其實很形象的表述了深度學(xué)習(xí)的特性。自動創(chuàng)建無人能想到的功能,是深度學(xué)習(xí)的較大優(yōu)勢,同時也是它的較大弱點因為大多數(shù)時候,至少在語義上是存疑的。還有人對深度學(xué)習(xí)應(yīng)用在醫(yī)學(xué)和診斷中寄予厚望。 我們對深度網(wǎng)絡(luò)的黑盒效應(yīng)都很熟悉了。雖然沒有人知道黑盒子里到底經(jīng)歷了什么,然而深度學(xué)習(xí)的成功以及一系列驚人的失敗模式,提供了如何處理的數(shù)據(jù)的寶貴教訓(xùn)。本文作者Piek...
閱讀 3955·2021-11-17 09:33
閱讀 3296·2021-10-08 10:05
閱讀 3124·2021-09-22 15:36
閱讀 1151·2021-09-06 15:02
閱讀 2780·2019-08-29 12:45
閱讀 1599·2019-08-26 13:40
閱讀 3409·2019-08-26 13:37
閱讀 431·2019-08-26 13:37