1. 引言

10月11-17日,萬眾期待的國際計算機視覺大會 ICCV 2021 (International Conference on Computer Vision) 在線上如期舉行,受到全球計算機視覺領域研究者的廣泛關注。
今年阿里云多媒體 AI 團隊(由阿里云視頻云和達摩院視覺團隊組成)參加了 MFR 口罩人物身份鑒別全球挑戰(zhàn)賽,并在總共5個賽道中,一舉拿下1個冠軍、1個亞軍和2個季軍,展現(xiàn)了我們在人物身份鑒別領域深厚的技術積淀和業(yè)界領先的技術優(yōu)勢。

2. 競賽介紹

MFR口罩人物身份鑒別全球挑戰(zhàn)賽是由帝國理工學院、清華大學和InsightFace.AI聯(lián)合舉辦的一次全球范圍內的挑戰(zhàn)賽,主要為了解決新冠疫情期間佩戴口罩給人物身份鑒別算法帶來的挑戰(zhàn)。競賽從6月1日開始至10月11日結束,歷時4個多月,共吸引了來自全球近400支隊伍參賽,是目前為止人物身份鑒別領域規(guī)模最大、參與人數(shù)最多的權威賽事。據(jù)官方統(tǒng)計,此次競賽收到的總提交次數(shù)超過10000次,各支隊伍競爭異常激烈。

2.1 訓練數(shù)據(jù)集

此次競賽的訓練數(shù)據(jù)集只能使用官方提供的3個數(shù)據(jù)集,不允許使用其它額外數(shù)據(jù)集以及預訓練模型,以保證各算法對比的公平公正性。官方提供的3個數(shù)據(jù)集,分別是ms1m小規(guī)模數(shù)據(jù)集、glint360k中等規(guī)模數(shù)據(jù)集和webface260m大規(guī)模數(shù)據(jù)集,各數(shù)據(jù)集包含的人物ID數(shù)和圖片數(shù)如下表所示:

2.2 評測數(shù)據(jù)集

此次競賽的評測數(shù)據(jù)集包含的正負樣本對規(guī)模在萬億量級,是當前業(yè)界規(guī)模最大、包含信息最全的權威評測數(shù)據(jù)集。值得注意的是所有評測數(shù)據(jù)集均不對外開放,只提供接口在后臺進行自動測評,避免算法過擬合測試數(shù)據(jù)集。
InsightFace賽道評測數(shù)據(jù)集的詳細統(tǒng)計信息如下表所示:

WebFace260M賽道評測數(shù)據(jù)集的詳細統(tǒng)計信息如下表所示:

2.3 評測指標

此次競賽的評測指標不僅有性能方面的指標,而且還包含特征維度和推理時間的限制,因此更加貼近真實業(yè)務場景。詳細的評測指標如下表所示:

3. 解決方案

下面,我們將從數(shù)據(jù)、模型、損失函數(shù)等方面,對我們的解決方案進行逐一解構。

3.1 基于自學習的數(shù)據(jù)清洗

眾所周知,人物身份鑒別相關的訓練數(shù)據(jù)集中廣泛存在著噪聲數(shù)據(jù),例如同一人物圖片分散到不同人物ID下、多個人物圖片混合在同一人物ID下,數(shù)據(jù)集中的噪聲會對識別模型的性能產生較大影響。針對上述問題,我們提出了基于自學習的數(shù)據(jù)清洗框架,如下圖所示:

首先,我們使用原始數(shù)據(jù)訓練初始模型M0,然后使用該模型進行特征提取、ID合并、類間清洗和類內清洗等一系列操作。對于每個人物ID,我們使用DBSCAN聚類算法去計算中心特征,然后使用中心特征進行相似度檢索,這一步使用的高維向量特征檢索引擎是達摩院自研的Proxima,它可以快速、精準地召回Doc中與Query記錄相似度最高的topK個結果。緊接著,我們使用清洗完成的數(shù)據(jù)集,訓練新的模型M1,然后重復數(shù)據(jù)清洗及新模型訓練過程,通過不斷進行迭代自學習方式,使得數(shù)據(jù)質量越來越高,模型性能也隨之越來越強。具體來看,類間清洗和類內清洗的示意圖如下圖所示:

值得注意的是,我們的清洗流程中先進行類間清洗、再進行類內清洗,與CAST[1]數(shù)據(jù)清洗框架不同,這樣在完成類間清洗后可以更新新的ID中心特征,使得整個清洗過程更加完備,清洗效果也更好。為了驗證數(shù)據(jù)清洗對最終性能的影響,我們在ms1m數(shù)據(jù)集上做了一系列對比實驗,結果如下表所示:

表中的閾值指的是類內清洗的相似度閾值,可以看出當閾值設置過低(如0.05)時,噪聲沒有被清洗干凈,因此性能表現(xiàn)不是最佳;而當閾值設置過高(如0.50)時,噪聲被清洗的同時難樣本也被清洗了,導致模型泛化能力變弱,在評測數(shù)據(jù)集上性能反而下降。因此選擇一個中間閾值0.25,既清洗了大量噪聲,又保留了困難樣本,在各項評測指標上均達到最佳性能。此外,我們還畫出了不同相似度閾值與剩余圖片數(shù)的關系,如下圖所示:

3.2 戴口罩數(shù)據(jù)生成

為解決戴口罩數(shù)據(jù)不足的問題,一種可行的方案是在已有的無口罩圖像上繪制口罩。然而,目前大部分的繪制方案屬于位置貼圖式,這種方案生成的戴口罩圖像不夠真實且缺乏靈活性。因此,我們借鑒PRNet[2,3]的思路,采用一種圖像融合方案[4]來獲取更符合真實情況的戴口罩圖像,如下圖所示,

該方案的原理是將口罩圖像和原圖像通過3D重建分別生成UV Texture Map,然后借助紋理空間合成戴口罩圖像。在數(shù)據(jù)生成過程中,我們使用了8種類型的口罩,意味著我們可在已有的數(shù)據(jù)集上對應生成8種不同風格的戴口罩圖像?;赨V映射的方案克服了傳統(tǒng)平面投影方式中原圖像和口罩圖像間的不理想銜接和變形等問題。此外,由于渲染過程的存在,戴口罩圖像可以獲得不同的渲染效果,比如調整口罩角度及光照效果等。生成的戴口罩圖像示例如下圖所示:

在生成戴口罩數(shù)據(jù)訓練模型的過程中,我們發(fā)現(xiàn)戴口罩數(shù)據(jù)的比例對模型性能有不同程度的影響。因此,我們將戴口罩數(shù)據(jù)占比分別設置為5%、10%、15%、20%和25%,實驗結果如下表所示:

從上表中發(fā)現(xiàn),當戴口罩數(shù)據(jù)比例為5%時,模型在MR-ALL評測集上的性能最高;當戴口罩數(shù)據(jù)比例調整至25%時,對Mask戴口罩評測集的性能提升明顯,但在MR-ALL上的性能下降明顯。這說明當混合戴口罩數(shù)據(jù)和正常數(shù)據(jù)進行訓練時,其比例是影響模型性能的重要參數(shù)。最終,我們選擇戴口罩數(shù)據(jù)比例為15%,在戴口罩和正常數(shù)據(jù)上的性能達到一個較好平衡。

3.3 基于NAS的骨干網(wǎng)絡

不同骨干網(wǎng)絡對特征提取的能力差異較大,在人物身份鑒別領域,業(yè)界常用的基線骨干網(wǎng)絡是在ArcFace[5]中提出的IR-100。在此次競賽中,我們采用達摩院提出的Zero-shot NAS (Zen-NAS[6]) 范式,在模型空間搜索具有更強表征能力的骨干網(wǎng)絡。Zen-NAS區(qū)別于傳統(tǒng)NAS方法,它使用Zen-Score代替搜索模型的性能評測分數(shù),值得注意的是Zen-Score與模型最終的性能指標成正比關系,因此整個搜索過程非常高效。Zen-NAS的核心算法結構如下圖所示:

我們基于IR-SE基線骨干網(wǎng)絡,使用Zen-NAS搜索3個模型結構相關的變量,分別是:Input層的通道數(shù)、Block層的通道數(shù)和不同Block層堆疊的次數(shù),限制條件是搜索出的骨干網(wǎng)絡滿足各賽道的推理時間約束。一個有趣的發(fā)現(xiàn)是:Zen-NAS搜索出的骨干網(wǎng)絡,在ms1m小數(shù)據(jù)集賽道上的性能表現(xiàn)與IR-SE-100幾乎無差異,但在WebFace260M這樣的大數(shù)據(jù)集賽道,性能表現(xiàn)會明顯優(yōu)于基線。原因可能是搜索空間增大后,NAS可搜索的范圍隨之增大,搜索到更強大模型的概率也隨之增加。

3.4 損失函數(shù)

此次競賽我們采用的基線損失函數(shù)為Curricular Loss[7],該損失函數(shù)在訓練過程中模擬課程學習的思想,按照樣本從易到難的順序進行訓練。然而,由于訓練數(shù)據(jù)集通常是極度不平衡的,熱門人物包含的圖片數(shù)多達數(shù)千張,而冷門人物包含的圖片數(shù)往往只有1張。為解決數(shù)據(jù)不均衡帶來的長尾問題,我們將Balanced Softmax Loss[8]的思想引入Curricular Loss中,提出一個新的損失函數(shù):Balanced Curricular Loss,其表達式如下圖所示:

在ms1m賽道上,我們對比了Balanced Curricular Loss (BCL) 與原始Curricular Loss (CL) 的性能,結果如下表所示:

可以看出Balanced Curricular Loss相對于Curricular Loss,無論在Mask還是MR-ALL上的指標均有較大幅度的提升,充分證明了其有效性。

3.5 知識蒸餾

由于此次比賽對模型的推理時間有約束,模型超時會被直接取消成績。因此,我們采用知識蒸餾的方式,將大模型強大的表征能力傳遞給小模型,然后使用小模型進行推理,以滿足推理時間的要求。此次競賽我們采用的知識蒸餾框架如下圖所示:

其中,蒸餾損失采用最簡單的L2 Loss,用以傳遞教師模型的特征信息,同時學生模型使用Balanced Curricular Loss訓練,最終的損失函數(shù)是蒸餾損失與訓練損失的加權和。經過知識蒸餾后,學生模型在評測數(shù)據(jù)集上的部分指標,甚至超過了教師模型,同時推理時間大大縮短,在ms1m小數(shù)據(jù)集賽道的性能有較大提升。

3.6 模型和數(shù)據(jù)同時并行

WebFace260M大數(shù)據(jù)集賽道的訓練數(shù)據(jù)ID數(shù)量>200萬、總圖片數(shù)>4000萬,導致傳統(tǒng)的多機多卡數(shù)據(jù)并行訓練方式已難以容納完整的模型。Partial FC[9]采用將FC層均勻分散到不同GPU上,每個GPU負責計算存儲在自己顯存單元的sub FC層結果,最終通過所有GPU間的同步通信操作,得到近似的full FC層結果。Partial FC的示意圖如下所示:

采用Partial FC,可同時使用模型并行與數(shù)據(jù)并行,使得之前無法訓練的大模型可以正常訓練,另外可采用負樣本采樣的方式,進一步加大訓練的batch size,縮短模型訓練周期。

3.7 其它技巧

在整個競賽過程中,我們先后嘗試了不同數(shù)據(jù)增強、標簽重構及學習率改變等策略,其中有效的策略如下圖所示:

4. 競賽結果

此次競賽我們mind_ft隊在InsightFace和WebFace260M共5個賽道中獲得1個冠軍(WebFace260M SFR)、1個亞軍(InsightFace unconstrained)和2個季軍(WebFace260M Main和InsightFace ms1m)。其中,WebFace260M賽道官方排行榜的最終結果截圖如下所示:

在競賽結束之后的Workshop中,我們受邀在全球范圍內分享此次競賽的解決方案。此外,我們在此次競賽中投稿的論文,也被同步收錄于ICCV 2021 Workshop[10]。最后,展示一下我們在此次競賽中收獲的榮譽證書:

5. EssentialMC2介紹與開源

EssentialMC2,實體時空關系推理多媒體認知計算,是達摩院MinD-數(shù)智媒體組對于視頻理解技術的一個長期研究結果沉淀的核心算法架構。核心內容包括表征學習MHRL、關系推理MECR2和開集學習MOSL3三大基礎模塊,三者分別對應從基礎表征、關系推理和學習方法三個方面對視頻理解算法框架進行優(yōu)化。基于這三大基礎模塊,我們總結了一套適合于大規(guī)模視頻理解算法研發(fā)訓練的代碼框架,并進行開源,開源工作中包含了組內近期發(fā)表的優(yōu)秀論文和算法賽事結果。

essmc2是EssentialMC2配套的一整套適合大規(guī)模視頻理解算法研發(fā)訓練的深度學習訓練框架代碼包,開源的主要目標是希望提供大量可驗證的算法和預訓練模型,支持使用者以較低成本快速試錯,同時希望在視頻理解領域內建立一個有影響力的開源生態(tài),吸引更多貢獻者參與項目建設。essmc2的主要設計思路是“配置即對象”,通過簡要明了的配置文件配合注冊器的設計模式(Registry),可以將眾多模型定義文件、優(yōu)化器、數(shù)據(jù)集、預處理pipeline等參數(shù)以配置文件的形式快速構造出對象并使用,本質上貼合深度學習的日常使用中不斷調參不斷實驗的場景。同時通過一致性的視角實現(xiàn)單機和分布式的無縫切換,使用者僅需定義一次,便可在單機單卡、單機多卡、分布式環(huán)境下進行切換,同時實現(xiàn)簡單易用與高可移植性的特性。
目前essmc2的開源工作已經發(fā)布了第一個可用版本,歡迎大家試用,后續(xù)我們會增加更多算法和預訓練模型。鏈接地址:https://github.com/alibaba/EssentialMC2。

6. 產品落地

隨著互聯(lián)網(wǎng)內容的視頻化以及VR、元宇宙等應用的興起,非結構化視頻內容數(shù)量正在高速增長,如何對這些內容進行快速識別、準確理解,成為內容價值挖掘關鍵的一環(huán)。
人物是視頻中的重要內容,高精度的視頻人物身份鑒別技術,能夠快速提取視頻人物關鍵信息,實現(xiàn)人物片段剪輯、人物搜索等智能應用。另外,對于視頻的視覺、語音、文字多維度內容進行分析理解,識別人、事、物、場、標識等更豐富的視頻內容實體標簽,可形成視頻結構化信息,幫助更全面地提取視頻關鍵信息。
更進一步,結構化的實體標簽作為語義推理的基礎,通過多模態(tài)信息融合,幫助理解視頻核心內容,實現(xiàn)視頻內容高層語義分析,進而實現(xiàn)類目、主題理解。
阿里云多媒體 AI 團隊的高準確率人物身份鑒別及視頻分析技術,已集成于EssentialMC2核心算法架構,并進行產品化輸出,支持對視頻、圖像的多維度內容進行分析理解并輸出結構化標簽(點擊進行體驗:Retina視頻云多媒體 AI 體驗中心-智能標簽產品 https://retina.aliyun.com/#/Label)。

多媒體AI產品

智能標簽產品通過對視頻中視覺、文字、語音、行為等信息進行綜合分析,結合多模態(tài)信息融合及對齊技術,實現(xiàn)高準確率內容識別,綜合視頻類目分析結果,輸出貼合視頻內容的多維度場景化標簽。

類目標簽:實現(xiàn)視頻內容高層語義分析,進而實現(xiàn)類目、主題的理解,視頻分類標簽,分為一級、二級和三級類目,實現(xiàn)媒資管理及個性化推薦應用。

實體標簽:視頻內容識別的實體標簽,維度包括視頻類目主題、影視綜漫IP、人物、行為事件、物品、場景、標識、畫面標簽,同時支持人物、IP的知識圖譜信息。其中,影視綜漫的IP搜索基于視頻指紋技術,將目標視頻與庫內的影視綜等資源進行指紋比對檢索,支持6萬余部電影、電視劇、綜藝、動漫、音樂的IP識別,可分析識別出目標視頻內容中包含哪一部電影、電視劇等IP內容,幫助實現(xiàn)精準的個性化推薦、版權檢索等應用?;趦?yōu)酷、豆瓣、百科等各類型數(shù)據(jù),構建了涵蓋影視綜、音樂、人物、地標、物體的信息圖譜,對于視頻識別命中的實體標簽,支持輸出知識圖譜信息,可用于媒資關聯(lián)及相關推薦等應用。

關鍵詞標簽:支持視頻語音識別及視頻OCR文字識別,結合NLP技術融合分析語音及文字的文本內容,輸出與視頻主題內容相關的關鍵詞標簽,用于精細化內容匹配推薦。
?

完善的標簽體系、靈活的定制化能力

智能標簽產品綜合優(yōu)酷、土豆、UC海外等平臺的PGC、UGC視頻內容進行學習、訓練,提供最全面完善、高質量的視頻標簽體系。在提供通用的標簽類目體系外,支持開放多層面定制化的能力,支持人臉自注冊、自定義實體標簽等擴展功能;面向客戶特定標簽體系的業(yè)務場景,采用標簽映射、定制化訓練等方式,提供一對一的標簽定制服務,更有針對性地幫助客戶解決平臺的視頻處理效率問題。

高品質人機協(xié)同服務

針對要求準確的業(yè)務場景,智能標簽產品支持引入人工交互判斷,形成高效、專業(yè)的人機協(xié)同平臺服務,AI識別算法與人工相輔相成,提供面向個性化業(yè)務場景的精準視頻標簽。
人機協(xié)同體系具備先進的人機協(xié)同平臺工具、專業(yè)的標注團隊,通過人員培訓、試運行、質檢、驗收環(huán)節(jié)等標準化的交付管理流程,確保數(shù)據(jù)標注質量,幫助快速實現(xiàn)高品質、低成本的標注數(shù)據(jù)服務。通過AI算法+人工的人機協(xié)同方式,提供人工標注服務作為AI算法的補充和修正,確保精準、高質量的服務輸出結果,實現(xiàn)業(yè)務效率和用戶體驗的提升。

體育行業(yè)和影視行業(yè)的視頻標簽識別

傳媒行業(yè)和電商行業(yè)的視頻標簽識別

以上能力均已集成到阿里云視頻云智能標簽產品,提供高品質的視頻分析及人機協(xié)同服務,歡迎大家了解及體驗試用(智能標簽產品 https://retina.aliyun.com/#/Label),搭建更高效、智能化的視頻業(yè)務應用。

參考文獻:
[1] Zheng Zhu, et al. Webface260m: A benchmark unveilingthe power of million-scale deep face recognition. CVPR 2021.
[2] Yao Feng, et al. Joint 3d face reconstruction and dense alignment with position map regression network. ECCV, 2018.
[3] Jun Wang et al. Facex-zoo: A pytorch toolbox for face recognition. arxiv, abs/2101.04407, 2021.
[4] Jiankang Deng et al. Masked Face Recognition Challenge: The InsightFace Track Report. arXiv, abs/2108.08191, 2021.
[5] Jiankang Deng, et al. Arcface: Additive angular margin loss for deep face recognition. CVPR 2019.
[6] Ming Lin, et al. Zen-NAS: A Zero-Shot NAS for High-Performance Image Recognition. ICCV 2021.
[7] Yuge Huang et al. Curricularface: Adaptive curriculum learning loss for deep face recognition. CVPR 2020.
[8] Jiawei Ren et al. Balanced meta-softmax for long-tailed visual recognition. NeurIPS, 2020.
[9] Xiang An, et al. Partial fc: Training 10 million identities on a single machine. ICCV 2021.
[10] Tao Feng, et al. Towards Mask-robust Face Recognition. ICCV 2021.

「視頻云技術」你最值得關注的音視頻技術公眾號,每周推送來自阿里云一線的實踐技術文章,在這里與音視頻領域一流工程師交流切磋。公眾號后臺回復【技術】可加入阿里云視頻云產品技術交流群,和業(yè)內大咖一起探討音視頻技術,獲取更多行業(yè)最新信息。