摘要:通過(guò)利用一系列利用視頻局部性的優(yōu)化,顯著降低了在每個(gè)幀上的計(jì)算量,同時(shí)仍保持常規(guī)檢索的高精度。的差異檢測(cè)器目前是使用逐幀計(jì)算的邏輯回歸模型實(shí)現(xiàn)的。這些檢測(cè)器在上的運(yùn)行速度非常快,每秒超過(guò)萬(wàn)幀。也就是說(shuō),每秒處理的視頻幀數(shù)超過(guò)幀。
視頻數(shù)據(jù)正在爆炸性地增長(zhǎng)——僅英國(guó)就有超過(guò)400萬(wàn)個(gè)CCTV監(jiān)控?cái)z像頭,用戶(hù)每分鐘上傳到 YouTube 上的視頻超過(guò)300小時(shí)。深度學(xué)習(xí)的進(jìn)展已經(jīng)能夠自動(dòng)分析這些海量的視頻數(shù)據(jù),讓我們得以檢索到感興趣的事物,檢測(cè)到異常和異常事件,以及篩選出不會(huì)有人看的視頻的生命周期。但是,這些深度學(xué)習(xí)方法在計(jì)算上是非常昂貴的:當(dāng)前 state-of-the-art 的目標(biāo)檢測(cè)方法是在較先進(jìn)的NVIDIA P100 GPU上以每秒10-80幀的速度運(yùn)行的。這對(duì)單個(gè)視頻來(lái)說(shuō)還好,但對(duì)于大規(guī)模實(shí)際部署的視頻來(lái)說(shuō),這是難以維持的。具體來(lái)說(shuō),假如用這樣的方法來(lái)實(shí)時(shí)分析英國(guó)所有的CCTV監(jiān)控視頻,僅在硬件上就得花費(fèi)超過(guò)50億美元。
為了解決視頻增長(zhǎng)速度與分析成本之間的巨大差距,我們構(gòu)建了一個(gè)名為 NoScope 的系統(tǒng),與目前的方法相比,它處理視頻內(nèi)容的速度要快數(shù)千倍。我們的主要想法是,視頻是高度冗余的,包含大量的時(shí)間局部性(即時(shí)間上的相似性)和空間局部性(即場(chǎng)景中的相似性)。為了利用這種局部性,我們?cè)O(shè)計(jì)了用于高效處理視頻輸入任務(wù)的 NoScope。通過(guò)利用一系列利用視頻局部性的優(yōu)化,顯著降低了在每個(gè)幀上的計(jì)算量,同時(shí)仍保持常規(guī)檢索的高精度。
本文將介紹NoScope優(yōu)化的一個(gè)示例,并描述NoScope如何在模型級(jí)聯(lián)中端到端地堆疊它們,以獲得倍增的加速——在現(xiàn)實(shí)部署的網(wǎng)絡(luò)攝像機(jī)上可提速1000倍。
一個(gè)典型例子
試想一下,我們想檢索下面的監(jiān)控?cái)z像頭拍攝的視頻,以確定公交車(chē)在什么時(shí)候經(jīng)過(guò)臺(tái)北的某個(gè)交叉路口(例如,用于交通分析):
?? ? ?
臺(tái)北某個(gè)交叉路口的兩個(gè)視頻片段
那么,當(dāng)前較好的視覺(jué)模型是如何處理這個(gè)問(wèn)題的呢?我們可以運(yùn)行 YOLOv2 或Faster R-CNN 之類(lèi)的用于對(duì)象檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)(CNN),通過(guò)在視頻的每個(gè)幀上運(yùn)行CNN來(lái)檢測(cè)公交車(chē):
?? ? ?
使用YOLOv2標(biāo)記的交叉路口片段
這種方法工作得很好,尤其是如果我們使視頻中出現(xiàn)的標(biāo)簽流暢的話,那么問(wèn)題出現(xiàn)在哪里呢?就是這些模型非常昂貴。這些模型的運(yùn)行速度是每秒10-80幀,這對(duì)監(jiān)控單個(gè)視頻輸入來(lái)說(shuō)還好,但如果要處理上千個(gè)視頻輸入的話,效果并不好。
機(jī)會(huì):視頻中的局部性
為了提高檢索的效率,我們應(yīng)該看視頻內(nèi)容本身的性質(zhì)。具體來(lái)說(shuō),視頻的內(nèi)容是非常冗余性的。讓我們回到臺(tái)北的街道監(jiān)控視頻,看一下以下一些出現(xiàn)公交車(chē)的幀:
從這個(gè)視頻影像的角度看,這些公交車(chē)看起來(lái)是非常相似的,我們稱(chēng)這種局部(locality)形式為場(chǎng)景特定的局部性(scene-specific locality),因?yàn)樵谝曨l影像中,對(duì)象之間看起來(lái)并沒(méi)有很大的不同(例如,與另一個(gè)角度的攝像頭相比)。
此外,從這個(gè)監(jiān)控視頻中,很容易看出,即使公交車(chē)正在移動(dòng),每一個(gè)幀之間都沒(méi)有太大的變化:
我們將這種特征稱(chēng)為時(shí)間局部性(temporal locality),因?yàn)闀r(shí)間點(diǎn)附近的幀看起來(lái)相似,并且包含相似的內(nèi)容。
NoScope:利用局部性
為了利用上面觀察到的特征,我們構(gòu)建了一個(gè)名為 NoScope 的檢索引擎,可以大大加快視頻分析檢索的速度。給定一個(gè)視頻輸入(或一組輸入),一個(gè)(或一組)要檢測(cè)的對(duì)象(例如,“在臺(tái)北的監(jiān)控視頻影像中查找包含公交車(chē)的幀”),以及一個(gè)目標(biāo)CNN(例如,YOLOv2),NoScope 輸出的幀與YOLOv2的一致。但是NoScope 比輸入CNN要快許多:它可以在可能的時(shí)候運(yùn)行一系列利用局部性的更便宜的模型,而不是簡(jiǎn)單地運(yùn)行成本更高的目標(biāo)CNN。下面,我們描述了兩類(lèi)成本較低的模型:專(zhuān)門(mén)針對(duì)給定的視頻內(nèi)容(feed)和要檢測(cè)的對(duì)象(以利用場(chǎng)景特定局部性)的模型,以及檢測(cè)差異(以利用時(shí)間局部性)的模型。
這些模型端到端地堆疊,比原來(lái)的CNN要快1000倍。
利用場(chǎng)景特定局部性
NoScope 使用專(zhuān)用模型來(lái)利用場(chǎng)景特定局部性,或訓(xùn)練來(lái)從特定視頻內(nèi)容的角度檢測(cè)特定對(duì)象的快速模型。如今的CNN已經(jīng)能夠識(shí)別各種各樣的物體,例如貓、滑雪板、馬桶等等。但在我們的檢測(cè)臺(tái)北地區(qū)的公交車(chē)的任務(wù)上,我們不需要關(guān)心貓、滑雪板或馬桶。相反,我們可以訓(xùn)練一個(gè)只能從特定角度的監(jiān)控視頻檢測(cè)公交車(chē)的模型。
舉個(gè)例子,下面的圖像是MS-COCO數(shù)據(jù)集中的一些樣本,也是我們?cè)跈z測(cè)中不需要關(guān)心的對(duì)象。
MS-COCO數(shù)據(jù)集中沒(méi)有出現(xiàn)公交車(chē)的3個(gè)樣本
MS-COCO數(shù)據(jù)集中出現(xiàn)公交車(chē)的2個(gè)樣本。
NoScope 的專(zhuān)用模型也是CNN,但它們比通用的對(duì)象檢測(cè)CNN更簡(jiǎn)單(更淺)。這有什么作用呢?與YOLOv2的每秒80幀相比,NoScope的專(zhuān)用模型每秒可以運(yùn)行超過(guò)15000幀。我們可以將這些模型作為原始CNN的替代。
使用差異檢測(cè)器來(lái)利用時(shí)間局部性
NoScope 使用差異檢測(cè)器(difference detector)或設(shè)計(jì)來(lái)檢測(cè)對(duì)象變化的快速模型來(lái)利用時(shí)間局部性。在許多視頻中,標(biāo)簽(例如“有公交車(chē)”,“無(wú)公交車(chē)”)的變化比幀的變化少很多(例如,一輛公交車(chē)出現(xiàn)在幀中長(zhǎng)達(dá)5秒,而模型以每秒30幀的速度運(yùn)行)。為了說(shuō)明,下面是兩個(gè)都是150幀長(zhǎng)度的視頻,但標(biāo)簽并不是在每個(gè)視頻中都有變化。
??
每個(gè)視頻都是150幀,標(biāo)簽一樣,但下邊的視頻沒(méi)變過(guò)!
相比之下,現(xiàn)在的對(duì)象檢測(cè)模型是逐幀地運(yùn)行的,與幀之間的實(shí)際變化無(wú)關(guān)。這樣設(shè)計(jì)的原因是,像YOLOv2這樣的模型是用靜態(tài)圖像訓(xùn)練的,因此它將視頻視為一系列的圖像。因?yàn)镹oScope可以訪問(wèn)特定的視頻流,因此它可以訓(xùn)練差異檢測(cè)模型,這些模型對(duì)時(shí)間依賴(lài)性敏感。NoScope的差異檢測(cè)器目前是使用逐幀計(jì)算的邏輯回歸模型實(shí)現(xiàn)的。這些檢測(cè)器在CPU上的運(yùn)行速度非???,每秒超過(guò)10萬(wàn)幀。想專(zhuān)用模型一樣,NoScope可以運(yùn)行這些差異檢測(cè)器,而不是調(diào)用昂貴的CNN。
把這些模型放到一起
NoScope將專(zhuān)用模型和差異檢測(cè)器結(jié)合在一起,堆疊在一個(gè)級(jí)聯(lián)中,或堆疊在使計(jì)算簡(jiǎn)化的一系列模型。如果差異檢測(cè)器沒(méi)有發(fā)生任何變化,那么NoScope會(huì)丟棄這一幀。如果專(zhuān)用模型對(duì)其標(biāo)簽有信心,那么NoScope會(huì)輸出這個(gè)標(biāo)簽。而且,如果面對(duì)特別棘手的框架,NoScope 可以隨時(shí)返回到完整的CNN。
為了設(shè)置這個(gè)級(jí)聯(lián)(cascade)以及每個(gè)模型的置信度,NoScope提供了可以在精度和 速度之間折衷的優(yōu)化器。如果想更快地執(zhí)行,NoScope將通過(guò)端到端級(jí)聯(lián)傳遞更少的幀。如果想得到更準(zhǔn)確的結(jié)果,NoSceop 則將提高分類(lèi)決定的簡(jiǎn)化閾值。如下圖所示,最終結(jié)果實(shí)現(xiàn)了比當(dāng)前方法快10000倍的加速。
上圖是NoScope的系統(tǒng)圖示;下圖顯示了在一個(gè)有代表性的視頻中速度和準(zhǔn)確度的相關(guān)性。
差異檢測(cè)器和專(zhuān)用模型都有助于這一結(jié)果。我們先是只使用YOLOv2進(jìn)行因素分析,然后將每個(gè)類(lèi)型的快速模型添加到級(jí)聯(lián)中。兩者都是為了實(shí)現(xiàn)較大話性能所必需的。
NoScope系統(tǒng)的因素分析
總結(jié)NoScope的級(jí)聯(lián)車(chē)輛,優(yōu)化器先在一個(gè)特定視頻流中運(yùn)行較慢的參考模型(YOLOv2,F(xiàn)aster R-CNN等),以獲取標(biāo)簽。給定這些標(biāo)簽,NoScope訓(xùn)練一組專(zhuān)用模型和差異檢測(cè)器,并使用一個(gè)holdout set來(lái)選擇使用哪個(gè)特定模型或差異檢測(cè)器。最后,NoScope的優(yōu)化器將訓(xùn)練好的模型串聯(lián)起來(lái),可以在優(yōu)化模型不確定是調(diào)用原始的模型。
結(jié)論
總結(jié)而言,視頻數(shù)據(jù)非常豐富,但使用現(xiàn)代神經(jīng)網(wǎng)絡(luò)進(jìn)行檢索的速度非常慢。在NoScope中,我們利用時(shí)間局部性,將視頻專(zhuān)用管道中差異檢測(cè)和專(zhuān)用CNN相結(jié)合,視頻檢索速度比普通CNN檢索提高了1000倍。也就是說(shuō),每秒處理的視頻幀數(shù)超過(guò)8000幀。我們將繼續(xù)改進(jìn)NoScope來(lái)支持多類(lèi)分類(lèi),非固定角度監(jiān)控視頻,以及更復(fù)雜的檢索。
原文:http://dawn.cs.stanford.edu/2017/06/22/noscope/
歡迎加入本站公開(kāi)興趣群商業(yè)智能與數(shù)據(jù)分析群
興趣范圍包括各種讓數(shù)據(jù)產(chǎn)生價(jià)值的辦法,實(shí)際應(yīng)用案例分享與討論,分析工具,ETL工具,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘工具,報(bào)表系統(tǒng)等全方位知識(shí)
QQ群:81035754
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/4581.html
摘要:月日,斯坦福大學(xué)發(fā)布了最新的深度學(xué)習(xí)推理榜單,阿里云獲得了圖像識(shí)別性能及成本雙料冠軍,打破了亞馬遜保持的長(zhǎng)達(dá)個(gè)月的紀(jì)錄,這是該榜單首次出現(xiàn)中國(guó)科技公司。測(cè)試結(jié)果顯示,阿里云識(shí)別圖片的速度比亞馬遜快倍,比谷歌快倍。12月25日,斯坦福大學(xué)發(fā)布了最新的DAWNBench深度學(xué)習(xí)推理榜單,阿里云獲得了圖像識(shí)別性能及成本雙料冠軍,打破了亞馬遜保持的長(zhǎng)達(dá)8個(gè)月的紀(jì)錄,這是該榜單首次出現(xiàn)中國(guó)科技公司。斯...
摘要:但是如果你和我是一樣的人,你想自己攢一臺(tái)奇快無(wú)比的深度學(xué)習(xí)的電腦??赡軐?duì)深度學(xué)習(xí)最重要的指標(biāo)就是顯卡的顯存大小。性能不錯(cuò),不過(guò)夠貴,都要美元以上,哪怕是舊一點(diǎn)的版本。電源我花了美元買(mǎi)了一個(gè)的電源。也可以安裝,這是一個(gè)不同的深度學(xué)習(xí)框架。 是的,你可以在一個(gè)39美元的樹(shù)莓派板子上運(yùn)行TensorFlow,你也可以在用一個(gè)裝配了GPU的亞馬遜EC2的節(jié)點(diǎn)上跑TensorFlow,價(jià)格是每小時(shí)1美...
摘要:年月日,將標(biāo)志著一個(gè)時(shí)代的終結(jié)。數(shù)據(jù)集最初由斯坦福大學(xué)李飛飛等人在的一篇論文中推出,并被用于替代數(shù)據(jù)集后者在數(shù)據(jù)規(guī)模和多樣性上都不如和數(shù)據(jù)集在標(biāo)準(zhǔn)化上不如。從年一個(gè)專(zhuān)注于圖像分類(lèi)的數(shù)據(jù)集,也是李飛飛開(kāi)創(chuàng)的。 2017 年 7 月 26 日,將標(biāo)志著一個(gè)時(shí)代的終結(jié)。那一天,與計(jì)算機(jī)視覺(jué)頂會(huì) CVPR 2017 同期舉行的 Workshop——超越 ILSVRC(Beyond ImageNet ...
摘要:作為當(dāng)下最熱門(mén)的話題,等巨頭都圍繞深度學(xué)習(xí)重點(diǎn)投資了一系列新興項(xiàng)目,他們也一直在支持一些開(kāi)源深度學(xué)習(xí)框架。八來(lái)自一個(gè)日本的深度學(xué)習(xí)創(chuàng)業(yè)公司,今年月發(fā)布的一個(gè)框架。 深度學(xué)習(xí)(Deep Learning)是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法,深度學(xué)習(xí)的好處是用 非 監(jiān)督式或半監(jiān)督式 的特征學(xué)習(xí)、分層特征提取高效算法來(lái)替代手工獲取特征(feature)。作為當(dāng)下最熱門(mén)的話題,Google...
閱讀 3266·2021-11-18 10:02
閱讀 1468·2021-10-12 10:08
閱讀 1269·2021-10-11 10:58
閱讀 1285·2021-10-11 10:57
閱讀 1182·2021-10-08 10:04
閱讀 2138·2021-09-29 09:35
閱讀 787·2021-09-22 15:44
閱讀 1284·2021-09-03 10:30