基于 Deep Learning 的視頻識別方法概覽

Arno 發(fā)布于2019-06-26 18:13 / 2110人閱讀

摘要：圖基于的識別方法它的基本思想是用對幀的最后一層的激活在時間軸上進行整合。這個是學習長度為幀采樣后視頻片段的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。

深度學習在最近十來年特別火，幾乎是帶動AI浪潮的最大貢獻者?；ヂ?lián)網(wǎng)視頻在最近幾年也特別火，短視頻、視頻直播等各種新型UGC模式牢牢抓住了用戶的消費心里，成為互聯(lián)網(wǎng)吸金的又一利器。當這兩個火碰在一起，會產(chǎn)生什么樣的化學反應(yīng)呢？

不說具體的技術(shù)，先上一張福利圖，該圖展示了機器對一個視頻的認知效果。其總紅色的字表示objects, 藍色的字表示scenes，綠色的字表示activities。

圖1

人工智能在視頻上的應(yīng)用主要一個課題是視頻理解，努力解決“語義鴻溝”的問題，其中包括了：

視頻結(jié)構(gòu)化分析：即是對視頻進行幀、超幀、鏡頭、場景、故事等分割，從而在多個層次上進行處理和表達。

目標檢測和跟蹤：如車輛跟蹤，多是應(yīng)用在安防領(lǐng)域。人物識別：識別出視頻中出現(xiàn)的人物。

動作識別：Activity Recognition，識別出視頻中人物的動作。

情感語義分析：即觀眾在觀賞某段視頻時會產(chǎn)生什么樣的心理體驗。

短視頻、直播視頻中大部分承載的是人物+場景+動作+語音的內(nèi)容信息，如圖1所示，如何用有效的特征對其內(nèi)容進行表達是進行該類視頻理解的關(guān)鍵。傳統(tǒng)的手工特征有一大堆，目前效果較好的是iDT(Improved Dense Trajectories) ，在這里就不加討論了。深度學習對圖像內(nèi)容的表達能力十分不錯，在視頻的內(nèi)容表達上也有相應(yīng)的方法。下面介紹最近幾年主流的幾種技術(shù)方法。

1、基于單幀的識別方法

一種最直接的方法就是將視頻進行截幀，然后基于圖像粒度（單幀）的進行deep learninig 表達，如圖2所示，視頻的某一幀通過網(wǎng)絡(luò)獲得一個識別結(jié)果。圖2為一個典型的CNN網(wǎng)絡(luò)，紅色矩形是卷積層，綠色是歸一化層，藍色是池化層，黃色是全連接層。然而一張圖相對整個視頻是很小的一部分，特別當這幀圖沒有那么的具有區(qū)分度，或是一些和視頻主題無關(guān)的圖像，則會讓分類器摸不著頭腦。因此，學習視頻時間域上的表達是提高視頻識別的主要因素。當然，這在運動性強的視頻上才有區(qū)分度，在較靜止的視頻上只能靠圖像的特征了。

圖2

2、基于CNN擴展網(wǎng)絡(luò)的識別方法

它的總體思路是在CNN框架中尋找時間域上的某個模式來表達局部運動信息，從而獲得總體識別性能的提升。圖3是網(wǎng)絡(luò)結(jié)構(gòu)，它總共有三層，在第一層對10幀（大概三分之一秒）圖像序列進行MxNx3xT的卷積（其中 MxN是圖像的分辨率，3是圖像的3個顏色通道，T取4，是參與計算的幀數(shù)，從而形成在時間軸上4個響應(yīng)），在第2、3層上進行T=2的時間卷積，那么在第3層包含了這10幀圖片的所有的時空信息。該網(wǎng)絡(luò)在不同時間上的同一層網(wǎng)絡(luò)參數(shù)是共享參數(shù)的。

它的總體精度在相對單幀提高了2%左右，特別在運動豐富的視頻，如摔角、爬桿等強運動視頻類型中有較大幅度的提升，這從而也證明了特征中運動信息對識別是有貢獻的。在實現(xiàn)時，這個網(wǎng)絡(luò)架構(gòu)可以加入多分辨的處理方法，可以提高速度。

圖3

3、雙路CNN的識別方法

這個其實就是兩個獨立的神經(jīng)網(wǎng)絡(luò)了，最后再把兩個模型的結(jié)果平均一下。上面一個就是普通的單幀的CNN，而且文章當中提到了，這個CNN是在ImageNet的數(shù)據(jù)上pre-train，然后在視頻數(shù)據(jù)上對最后一層進行調(diào)參。下面的一個CNN網(wǎng)絡(luò)，就是把連續(xù)幾幀的光流疊起來作為CNN的輸入。另外，它利用multi-task learning來克服數(shù)據(jù)量不足的問題。其實就是CNN的最后一層連到多個softmax的層上，對應(yīng)不同的數(shù)據(jù)集，這樣就可以在多個數(shù)據(jù)集上進行multi-task learning。網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

圖4

4、基于LSTM的識別方法

它的基本思想是用LSTM對幀的CNN最后一層的激活在時間軸上進行整合。這里，它沒有用CNN全連接層后的最后特征進行融合，是因為全連接層后的高層特征進行池化已經(jīng)丟失了空間特征在時間軸上的信息。相對于方法2，一方面，它可以對CNN特征進行更長時間的融合，不對處理的幀數(shù)加以上限，從而能對更長時長的視頻進行表達；另一方面，方法2沒有考慮同一次進網(wǎng)絡(luò)的幀的前后順序，而本網(wǎng)絡(luò)通過LSTM引入的記憶單元，可以有效地表達幀的先后順序。網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5

圖5中紅色是卷積網(wǎng)絡(luò)，灰色是LSTM單元，黃色是softmax分類器。LSTM把每個連續(xù)幀的CNN最后一層卷積特征作為輸入，從左向右推進時間，從下到上通過5層LSTM，最上的softmax層會每個時間點給出分類結(jié)果。同樣，該網(wǎng)絡(luò)在不同時間上的同一層網(wǎng)絡(luò)參數(shù)是共享參數(shù)的。在訓練時，視頻的分類結(jié)果在每幀都進行BP(back Propagation)，而不是每個clip進行BP。在BP時，后來的幀的梯度的權(quán)重會增大，因為在越往后，LSTM的內(nèi)部狀態(tài)會含有更多的信息。

在實現(xiàn)時，這個網(wǎng)絡(luò)架構(gòu)可以加入光流特征，可以讓處理過程容忍對幀進行采樣，因為如每秒一幀的采樣已經(jīng)丟失了幀間所隱含的運動信息，光流可以作為補償。

5、3維卷積核（3D CNN）法

3D CNN 應(yīng)用于一個視頻幀序列圖像集合，并不是簡單地把圖像集合作為多通道來看待輸出多個圖像（這種方式在卷積和池化后就丟失了時間域的信息，如圖6上），而是讓卷積核擴展到時域，卷積在空域和時域同時進行，輸出仍然是有機的圖像集合（如圖6下）。

圖6

實現(xiàn)時，將視頻分成多個包含16幀的片段作為網(wǎng)絡(luò)的輸入（維數(shù)為3 × 16 × 128 × 171）。池化層的卷積核的尺寸是d x k x k, 第一個池化層d=1，是為了保證時間域的信息不要過早地被融合，接下來的池化層的d=2。有所卷積層的卷積核大小為3x3x3，相對其他尺寸的卷積核，達到了精度最優(yōu)，計算性能最佳。網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。這個是學習長度為16幀（采樣后）視頻片段的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。對于一個完整的視頻，會被分割成互相覆蓋8幀的多個16幀的片段，分別提取他們的fc6特征，然后進行一個簡單平均獲得一個4096維的向量作為整個視頻的特征。

圖7

通過可視化最后一個卷積層對一個連續(xù)幀序列的特征表達，可以發(fā)現(xiàn)，在特征開始著重表達了畫面的信息，在特征的后面著重表達的是運動信息，即在運動處有相對顯著的特征。如圖8。

圖8

和單幀圖特征在視頻測試集上進行對比，3D CNN有更強的區(qū)分度，如圖9。

圖9

6、阿里聚安全內(nèi)容安全（阿里綠網(wǎng)）

阿里聚安全內(nèi)容安全（阿里綠網(wǎng)）基于深度學習技術(shù)及阿里巴巴多年的海量數(shù)據(jù)支撐，提供多樣化的內(nèi)容識別服務(wù)，能有效幫助用戶降低違規(guī)風險。其產(chǎn)品包括：ECS站點檢測服務(wù)、OSS圖片鑒黃服務(wù)、內(nèi)容檢測API服務(wù)。針對多媒體內(nèi)容中的違規(guī)視頻內(nèi)容，綠網(wǎng)致力于提供一整套內(nèi)容安全的垂直視頻解決方案。以下是一些諸如圖像識別，視頻識別（人物動作識別）公開的訓練、評測數(shù)據(jù)集。

UCF-101
一共13320個視頻，共101個類別。

HMDB51
一共7000個視頻片段，共51個類別。

activity-net
200類，10,024個訓練視頻，4,926個交叉驗證視頻，5,044 個測試視頻。

1M sport
1.2 million個體育視頻，有487個已標記的類，每類有1000到3000個視頻。

7、參考資料

[1] Large-scale Video Classification with Convolutional Neural Networks
[2] Two-stream convolutional networks for action recognition in videos
[3] Beyond Short Snippets: Deep Networks for Video Classification
[4] Learning Spatiotemporal Features with 3D Convolutional Networks
[5] https://clarifai.com/

作者：析策@阿里安全，更多技術(shù)文章，請訪問阿里聚安全博客

GPU云服務(wù)器云服務(wù)器 deep learning 基于安卓的圖像識別基于算法的圖像識別基于特征的圖像識別

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/19601.html

發(fā)表評論

登陸后可評論

0條評論

Arno

男|高級講師

我要關(guān)注我要私信

TA的文章

電子郵件營銷的優(yōu)缺點有哪些？

閱讀 2494·2021-11-22 15:35
ZJI，雙11促銷，中國香港阿里專線/葵灣自營物理服務(wù)器，5.5折優(yōu)惠，低至412元，CN2+BGP

閱讀 3790·2021-11-04 16:14
MediaTemple：托管vps，1核/2G內(nèi)存/40g硬盤，$130/月起，非托管vps，$10

閱讀 2720·2021-10-20 13:47
利用TeamViewer軟件穩(wěn)定協(xié)作遠程電腦桌面控制軟件

閱讀 2524·2021-10-13 09:49
H5 分層屏幕適配

閱讀 2094·2019-08-30 14:09
Vue-項目從本地搭建到線上部署（wǒ shì biaō tí dǎng）

閱讀 2424·2019-08-26 13:49
瀏覽器內(nèi)核以及調(diào)試

閱讀 913·2019-08-26 10:45
關(guān)于前端實現(xiàn)文件下載功能

閱讀 2799·2019-08-23 17:54

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

基于 Deep Learning 的視頻識別方法概覽

相關(guān)文章

**關(guān)于深度學習(deep learning)**

深度學習助力實現(xiàn)智能行為分析和事件識別

從自編碼器到生成對抗網(wǎng)絡(luò)：一文縱覽無監(jiān)督學習研究現(xiàn)狀

發(fā)表評論

0條評論

Arno

男|高級講師

TA的文章

電子郵件營銷的優(yōu)缺點有哪些？

ZJI，雙11促銷，中國香港阿里專線/葵灣自營物理服務(wù)器，5.5折優(yōu)惠，低至412元，CN2+BGP

MediaTemple：托管vps，1核/2G內(nèi)存/40g硬盤，$130/月起，非托管vps，$10

利用TeamViewer軟件穩(wěn)定協(xié)作遠程電腦桌面控制軟件

H5 分層屏幕適配

Vue-項目從本地搭建到線上部署（wǒ shì biaō tí dǎng）

瀏覽器內(nèi)核以及調(diào)試

關(guān)于前端實現(xiàn)文件下載功能

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

基于 Deep Learning 的視頻識別方法概覽

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！