成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

「不良視頻」如何消滅?她手把手教你走出第一步

Invoker / 1440人閱讀

摘要:嚴(yán)肅的開(kāi)場(chǎng)白故事要從深度學(xué)習(xí)說(shuō)起。本文從視頻分類的角度,對(duì)深度學(xué)習(xí)在該方向上的算法進(jìn)行總結(jié)。數(shù)據(jù)集熟悉深度學(xué)習(xí)的朋友們應(yīng)該清楚,深度學(xué)習(xí)是一門數(shù)據(jù)驅(qū)動(dòng)的技術(shù),因此數(shù)據(jù)集對(duì)于算法的研究起著非常重要的作用。是一個(gè)比較成功的傳統(tǒng)方法與深度學(xué)習(xí)算

不嚴(yán)肅的開(kāi)場(chǎng)白

視頻社交已經(jīng)成為了時(shí)下最in的社交方式,相較于傳統(tǒng)的文字、語(yǔ)音聊天,使用親身錄制的短視頻、幽默搞笑的圖片、表情包與好友進(jìn)行交流,不僅更加風(fēng)趣且更具人情味。

而隨著視頻社交的流行,每天產(chǎn)生的視頻數(shù)據(jù)能夠達(dá)到數(shù)千萬(wàn)小時(shí),這些數(shù)據(jù)的質(zhì)量參差不齊,其中有大量的不良視頻,如涉暴、涉黃、涉政等。在海量數(shù)據(jù)面前,完全依靠人工審核無(wú)法解決內(nèi)容審核的難題。因此也催生了智能內(nèi)容審核的誕生。智能內(nèi)容審核是指借助于人工智能技術(shù),對(duì)海量視頻進(jìn)行自動(dòng)分類,鑒別出其中涉及敏感內(nèi)容的視頻并予以禁播。

智能內(nèi)容審核的第一步,是進(jìn)行視頻分類。今天,我們要聊的就是視頻分類背后的算法。

嚴(yán)肅的開(kāi)場(chǎng)白

故事要從深度學(xué)習(xí)說(shuō)起。(因?yàn)閺纳疃葘W(xué)習(xí)說(shuō)起,可以顯出本文是一篇有逼格的算法總結(jié)。)深度學(xué)習(xí)是一個(gè)近幾年來(lái)火遍各個(gè)領(lǐng)域的詞匯,在語(yǔ)音識(shí)別、圖像分類、視頻理解等領(lǐng)域,深度學(xué)習(xí)的相關(guān)算法在特定任務(wù)上已經(jīng)能夠達(dá)到甚至超過(guò)人類水平。本文從視頻分類的角度,對(duì)深度學(xué)習(xí)在該方向上的算法進(jìn)行總結(jié)。

視頻分類是指給定一個(gè)視頻片段,對(duì)其中包含的內(nèi)容進(jìn)行分類。類別通常是動(dòng)作(如做蛋糕),場(chǎng)景(如海灘),物體(如桌子)等。其中又以視頻動(dòng)作分類最為熱門,畢竟動(dòng)作本身就包含“動(dòng)”態(tài)的因素,不是“靜“態(tài)的圖像所能描述的,因此也是最體現(xiàn)視頻分類功底的。

數(shù)據(jù)集

熟悉深度學(xué)習(xí)的朋友們應(yīng)該清楚,深度學(xué)習(xí)是一門數(shù)據(jù)驅(qū)動(dòng)的技術(shù),因此數(shù)據(jù)集對(duì)于算法的研究起著非常重要的作用。網(wǎng)絡(luò)上雖然有大量用戶上傳的視頻數(shù)據(jù),但這些數(shù)據(jù)大多數(shù)缺少類目標(biāo)簽,直接用于算法的訓(xùn)練會(huì)導(dǎo)致效果欠佳。在學(xué)術(shù)界,通常有一些公開(kāi)的、已經(jīng)經(jīng)過(guò)完整標(biāo)注的數(shù)據(jù)集,是算法訓(xùn)練的好幫手。具體到視頻分類領(lǐng)域,主要有兩種數(shù)據(jù)集,trimmed和untrimmed。Trimmed是指視頻經(jīng)過(guò)剪輯,使其只包含待識(shí)別類別的內(nèi)容;untrimmed是指視頻未經(jīng)過(guò)剪輯,包含了動(dòng)作/場(chǎng)景/物體之外的很多信息。Untrimmed通常在視頻分類的算法之外,還要加上動(dòng)作檢測(cè)算法。這不在今天的話題當(dāng)中,有空我們可以再聊聊這一塊的算法。

那么trimmed video的數(shù)據(jù)集比較常見(jiàn)的有UCF101,HMDB51,Kinetics,Moments in time。Untrimmed video的數(shù)據(jù)集比較常見(jiàn)的有ActivityNet,Charades,SLAC。部分?jǐn)?shù)據(jù)集的比較見(jiàn)下表:

? 視頻分類常用數(shù)據(jù)集

數(shù)據(jù)集名稱 數(shù)據(jù)集規(guī)模 類別概覽
HMDB51 51類動(dòng)作,6849段trimmed視頻 1. 常見(jiàn)的面部表情動(dòng)作:如微笑,咀嚼,說(shuō)話等;2. 和物體交互有關(guān)的面部動(dòng)作:如吃東西,喝飲料,抽煙等;3. 常見(jiàn)的肢體動(dòng)作:如鼓掌,爬樓梯,跑步,潛水,坐下等;4. 和物體交互有關(guān)的肢體動(dòng)作:如洗頭,打高爾夫,騎自行車,射擊,打籃球等;5. 和人交互有關(guān)的肢體動(dòng)作:如擁抱,親吻,擊劍,拳擊等。
UCF101 101類動(dòng)作,13320段trimmed視頻 1. 人與物體交互相關(guān)的動(dòng)作:如畫(huà)眼線,呼啦圈,拖地,打字等;2. 肢體動(dòng)作:如打太極,引體向上,俯臥撐等;3. 人與人交互相關(guān)的動(dòng)作,如剪頭發(fā),閱兵, 薩爾薩舞等;4. 演奏樂(lè)器:如打鼓,彈吉他,演奏鋼琴等;5. 運(yùn)動(dòng):如潛水,跳高,舉重等。
Moments in Time 1000000段trimmed視頻,每個(gè)視頻長(zhǎng)度相同(3s) 這個(gè)數(shù)據(jù)集比較有意思的是動(dòng)作主體不僅可以是人,還可以是動(dòng)物,物體乃至自然現(xiàn)象。想看小狗跳舞嗎?
ActivityNet 200類動(dòng)作,20000段untrimmed視頻 1. 和吃喝有關(guān)的動(dòng)作:如喝咖啡,制作三明治,洗碗等;2. 和運(yùn)動(dòng)有關(guān)的動(dòng)作:如打曲棍球,擲鐵餅等; 3.和社交/休閑/娛樂(lè)有關(guān)的動(dòng)作:如跳舞,演奏樂(lè)器,跳房子游戲等;4. 和個(gè)人護(hù)理有關(guān)的動(dòng)作:如化妝,刮胡子,紋身等;5. 和家庭日常活動(dòng)有關(guān)的動(dòng)作:如包裝禮物,和寵物玩耍,修剪草坪等。

需要指出的是,從上表中我們可以看出視頻分類的數(shù)據(jù)集實(shí)際上比圖像分類的數(shù)據(jù)集的規(guī)模小得多。這是因?yàn)樵谝曨l上進(jìn)行標(biāo)注遠(yuǎn)比對(duì)圖像進(jìn)行標(biāo)注要費(fèi)時(shí)費(fèi)力。trimmed視頻還好些,基本標(biāo)注時(shí)間等于視頻時(shí)長(zhǎng)。如果是untrimmed視頻,需要在視頻中手工標(biāo)注動(dòng)作的起始和結(jié)束時(shí)間,根據(jù)測(cè)試,需要花費(fèi)視頻長(zhǎng)度的 4 倍時(shí)間。

因此ladies and 鄉(xiāng)親們,這些數(shù)據(jù)集,且用且珍惜吧。

研究進(jìn)展

在視頻分類中,有兩種非常重要的特征:表觀特征(appearance)和時(shí)序特征(dynamics)。一個(gè)視頻分類系統(tǒng)的性能很大程度上取決于它是否提取并利用好了這兩種特征。但是提取這兩種特征并不那么容易,會(huì)遇到諸如形變/視角轉(zhuǎn)換/運(yùn)動(dòng)模糊等因素的影響。因此,設(shè)計(jì)對(duì)噪聲魯棒性強(qiáng)且能保留視頻類別信息的有效特征至關(guān)重要。

根據(jù)ConvNets(深度卷積神經(jīng)網(wǎng)絡(luò))在圖像分類上取得的成功,很自然地,我們會(huì)想到把ConvNets用到視頻分類中。但是,ConvNets本身是對(duì)二維圖像的表觀特征的建模,而對(duì)于視頻來(lái)說(shuō),除了表觀特征,時(shí)序特征也很重要。那么如果把時(shí)序特征用起來(lái)呢?通常有三種思路:LSTM,3D-ConvNet和Two-Stream。

1. LSTM系列

LRCNs[1]是LSTM和ConvNet結(jié)合進(jìn)行視頻分類的方法。這種結(jié)合很自然,已經(jīng)在圖像分類任務(wù)上訓(xùn)練好的ConvNet分類器,可以很好地提取視頻幀的表觀特征;而對(duì)于時(shí)序特征的提取,則可以通過(guò)直接增加LSTM層來(lái)實(shí)現(xiàn),因?yàn)長(zhǎng)STM能夠?qū)⒍鄠€(gè)時(shí)刻的狀態(tài)作為當(dāng)前時(shí)刻的輸入,從而允許時(shí)間維度上的信息得以保留。

視頻分類任務(wù)是變長(zhǎng)輸入定長(zhǎng)輸出的。文章另外還介紹了LRCNs用于圖像描述(定長(zhǎng)輸入變長(zhǎng)輸出)和視頻描述(變長(zhǎng)輸入變長(zhǎng)輸出)的方案,感興趣的同學(xué)可以自行查看。

2. 3D-ConvNet及其衍生系列

C3D[2]是Facebook的一個(gè)工作,它主要是把2D Convolution擴(kuò)展到3D。其原理如下圖,我們知道2D的卷積操作是將卷積核在輸入圖像或特征圖(feature map)上進(jìn)行滑窗,得到下一層的特征圖。例如,圖(a)是在一個(gè)單通道的圖像上做卷積,圖(b)是在一個(gè)多通道的圖像上做卷積(這里的多通道圖像可以指同一張圖片的3個(gè)顏色通道,也指多張堆疊在一起的幀,即一小段視頻),最終的輸出都是一張二維的特征圖,也就是說(shuō),多通道的信息被完全壓縮了。而在3D卷積中,為了保留時(shí)序的信息,對(duì)卷積核進(jìn)行了調(diào)整,增加了一維時(shí)域深度。如圖(c)所示,3D卷積的輸出仍是一個(gè)三維的特征圖。因此通過(guò)3D卷積,C3D可以直接處理視頻,同時(shí)利用表觀特征和時(shí)序特征。

關(guān)于實(shí)驗(yàn)效果,C3D在UCF101上的精度為82.3%,并不高,其原因在于C3D的網(wǎng)絡(luò)結(jié)果是自己設(shè)計(jì)的簡(jiǎn)單結(jié)構(gòu)(只有11層),而沒(méi)有借鑒或預(yù)訓(xùn)練于其他成熟的ConvNets結(jié)構(gòu)。

因此針對(duì)這一點(diǎn),有很多學(xué)者提出了改進(jìn)。

I3D[3] 是 DeepMind 基于 C3D 作出的改進(jìn),值得一提的是 I3D 這篇文章也是發(fā)布 Kinetics數(shù)據(jù)集的文章。其創(chuàng)新點(diǎn)在于模型的權(quán)重初始化,如何將預(yù)訓(xùn)練好的2D ConvNets的權(quán)重賦值給3D ConvNets。具體地,將一張圖像在時(shí)間維度上重復(fù)T次可以看作是一個(gè)(非常無(wú)聊的)T幀的視頻,那么為了使該視頻在3D結(jié)構(gòu)上的輸出和單幀圖像在2D結(jié)構(gòu)的輸出相等,可以使3D卷積的權(quán)重等于2D卷積的權(quán)重重復(fù)T次,再將權(quán)重縮小T倍以保證輸出一致。I3D在Kinetics數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練然后用于UCF101,其精度可達(dá)到98.0%。

P3D[4]是MSRA基于C3D作出的改進(jìn),基本結(jié)構(gòu)是把ResNet擴(kuò)展為“偽”3D卷積,“偽”3D卷積的意思是利用一個(gè)1*3*3的2D空間卷積和3*1*1的1D時(shí)域卷積來(lái)模擬常用的3*3*3的3D卷積,如下圖所示。P3D在參數(shù)數(shù)量、運(yùn)行速度等方面對(duì)C3D作出了優(yōu)化。

3. Two-Stream Network及其衍生系列

Two Stream[5]是VGG組的工作(不是UGG哦),其基本原理是訓(xùn)練兩個(gè)ConvNets,分別對(duì)視頻幀圖像(spatial)和密集光流(temporal)進(jìn)行建模,兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)是一樣的,都是2D ConvNets,見(jiàn)下圖。兩個(gè)stream的網(wǎng)絡(luò)分別對(duì)視頻的類別進(jìn)行判斷,得到class score,然后進(jìn)行分?jǐn)?shù)的融合,得到最終的分類結(jié)果。

可以看出Two-Stream和C3D是不同的思路,它所用的ConvNets都是2D ConvNets,對(duì)時(shí)序特征的建模體現(xiàn)在兩個(gè)分支網(wǎng)絡(luò)的其中一支上。Two-Stream的實(shí)驗(yàn)結(jié)果,在UCF101上達(dá)到88.0%的準(zhǔn)確率。

在spatial stream和temporal stream如何融合的問(wèn)題上,有很多學(xué)者作出了改進(jìn)。

[6]在two stream network的基礎(chǔ)上,利用3D Conv和3D Pooling進(jìn)行spatial和temporal的融合,有點(diǎn)two stream + C3D的意思。另外,文章將兩個(gè)分支的網(wǎng)絡(luò)結(jié)構(gòu)都換成了VGG-16。在UCF101的精度為92.5%。

TSN[7]是CUHK的工作,對(duì)進(jìn)一步提高two stream network的性能進(jìn)行了詳盡的討論。two stream在這里被用在視頻片段(snippets)的分類上。關(guān)于two stream的輸入數(shù)據(jù)類型,除去原有的視頻幀圖像和密集光流這兩種輸入外,文章發(fā)現(xiàn)加入warped optical flow也能對(duì)性能有所提高。在分支網(wǎng)絡(luò)結(jié)構(gòu)上嘗試了GoogLeNet,VGG-16及BN-Inception三種網(wǎng)絡(luò)結(jié)構(gòu),其中BN-Inception的效果最好。在訓(xùn)練策略上采用了跨模態(tài)預(yù)訓(xùn)練,正則化,數(shù)據(jù)增強(qiáng)等方法。在UCF101上達(dá)到94.2%的精度。

4. 其他

除了以上兩種常見(jiàn)的思路以外,也有學(xué)者另辟蹊徑,嘗試與眾不同的方法。

TDD[8]是對(duì)傳統(tǒng)的iDT[9]算法的改進(jìn)(iDT算法是深度學(xué)習(xí)以前最好的行為識(shí)別算法),它將軌跡特征和two-stream network結(jié)合使用,以two-stream network作為特征提取器,同時(shí)利用軌跡對(duì)特征進(jìn)行選擇,獲得軌跡的深度卷積描述符,最后使用線性SVM進(jìn)行視頻分類。TDD是一個(gè)比較成功的傳統(tǒng)方法與深度學(xué)習(xí)算法相結(jié)合的例子,在UCF上達(dá)到90.3%的精度。

ActionVLAD[10]是一種特征融合的方式,它可以融合two stream的特征,C3D的特征以及其他網(wǎng)絡(luò)結(jié)構(gòu)的特征。其思想是對(duì)原有的特征計(jì)算殘差并聚類,對(duì)不同時(shí)刻的幀進(jìn)行融合,得到新的特征。ActionVLAD是對(duì)視頻空間維度和時(shí)間維度的特征融合,使得特征的表達(dá)更全面。

Non-local Network[11]是Facebook何愷明和RBG兩位大神近期的工作,非局部操作(non-local operations)為解決視頻處理中時(shí)空域的長(zhǎng)距離依賴打開(kāi)了新的方向。我們知道,卷積結(jié)構(gòu)只能捕捉數(shù)據(jù)的局部信息,它對(duì)于非局部特征的信息傳遞不夠靈活。Non-local Network則根據(jù)所有幀所有位置的信息對(duì)某個(gè)位置進(jìn)行調(diào)整。文章把這個(gè)block加在I3D上做了實(shí)驗(yàn),在Charades上精度提升2%。

?

總結(jié)

以上所有的視頻分類算法都是在近幾年提出的,可以看出這一領(lǐng)域的發(fā)展之快。從學(xué)術(shù)角度,視頻分類是開(kāi)啟視頻理解這個(gè)領(lǐng)域的金鑰匙,對(duì)它的研究可以為相關(guān)領(lǐng)域的研究打下堅(jiān)實(shí)的基礎(chǔ),包括視頻動(dòng)作檢測(cè),視頻結(jié)構(gòu)化分析等,都用到了視頻分類的技術(shù)。從我們實(shí)際生活的角度,視頻分類已經(jīng)在默默地做著很多事情,例如在文章一開(kāi)始提到的智能內(nèi)容審核,再例如視頻檢索、視頻監(jiān)控、視頻廣告投放、自動(dòng)駕駛、體育賽事分析等。在不久的將來(lái),相信視頻分類以及其他的AI算法將為我們帶來(lái)更多驚喜的變革。AI讓生活更美好。

牛人說(shuō)

牛人說(shuō)專欄致力于技術(shù)人思想的發(fā)現(xiàn),其中包括技術(shù)實(shí)踐、技術(shù)干貨、技術(shù)見(jiàn)解、成長(zhǎng)心得,還有一切值得被發(fā)現(xiàn)的技術(shù)內(nèi)容。我們希望集合最優(yōu)秀的技術(shù)人,挖掘獨(dú)到、犀利、具有時(shí)代感的聲音。

參考文獻(xiàn)

[1] J. Donahue, et al. Long-term recurrent convolutional networks for visual recognition and description. CVPR, 2015.

[2] D. Tran, et al. Learning Spatiotemporal Features with 3D Convolutional Networks. ICCV, 2015.

[3] J. Carreira, et al. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. CVPR, 2017.

[4] Z. Qiu, et al. Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks. ICCV, 2017.

[5] K. Simonyan, et al. Two-Stream Convolutional Networks for Action Recognition in Videos. NIPS, 2014.

[6] C. Feichtenhofer, et al. Convolutional Two-Stream Network Fusion for Video Action Recognition. CVPR, 2016.

[7] L. Wang, et al. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition. ECCV, 2016.

[8] L. Wang, et al. Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors. CVPR, 2015.

[9] H. Wang, et al. Action Recognition with Improved Trajectories. ICCV, 2013.

[10] R. Girdhar, et al. ActionVLAD: Learning spatio-temporal aggregation for action classification. CVPR, 2017.

[11] X. Wang, et al. Non-local Neural Networks. arxiv 1711, 2017.

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/11058.html

相關(guān)文章

  • 人工智能革命:人類會(huì)永生還是滅亡(下)

    摘要:為什么未來(lái)可能是我們最糟糕的噩夢(mèng)我想要了解人工智能的原因之一是壞機(jī)器人的主題總是讓我感到困惑。沒(méi)有那個(gè)人工智能系統(tǒng)會(huì)像電影描述的那樣變的邪惡。意識(shí)盒子他還觸及了另一個(gè)與人工智能意識(shí)相關(guān)的大話題。這并不是說(shuō)人工智能不可能發(fā)生。 為什么未來(lái)可能是我們最糟糕的噩夢(mèng) 我想要了解人工智能的原因之一是壞機(jī)器人的主題總是讓我感到困惑。關(guān)于邪惡機(jī)器人的所有電影看起來(lái)都是不切實(shí)際的,我無(wú)法真正理解人工智...

    Ethan815 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<