近日,當(dāng)下炙手可熱的快手宣布開源旗下明星產(chǎn)品可靈中一項重要技術(shù)項目LivePortrait。,該框架能夠準(zhǔn)確、實時地將驅(qū)動視頻的表情、姿態(tài)遷移到靜態(tài)或動態(tài)人像視頻上,生成極具表現(xiàn)力的視頻結(jié)果。如下動圖所示:
LivePortrait的主要功能包括從單一圖像生成生動動畫、精確控制眼睛和嘴唇的動作、處理多個人物肖像的無縫拼接、支持多風(fēng)格肖像、生成高分辨率動畫等。這些功能不僅讓LivePortrait在動畫生成上更加靈活多變,也為用戶提供了更多的創(chuàng)意空間。
并且,LivePortrait發(fā)布即可用,秉承快手風(fēng)格,論文、主頁、代碼一鍵三連。LivePortrait一經(jīng)開源,就得到了HuggingFace首席執(zhí)行官Clément Delangue的關(guān)注轉(zhuǎn)發(fā),首席戰(zhàn)略官 Thomas Wolf還親自體驗了功能,厲害了!
同時,LivePotrait獲得了開源社區(qū)的廣泛關(guān)注,短短一周多時間左右,在GitHub上總計收獲了6.4K Stars,550 Forks,140 Issues&PRs,獲得廣泛好評,關(guān)注仍在持續(xù)增長中:
方法介紹
和當(dāng)前主流基于擴散模型的方法不同,LivePortrait探索并拓展了基于隱式關(guān)鍵點框架的潛力,從而平衡了模型計算效率和可控性。LivePortrait聚焦于更好的泛化性,可控性和實用的效率。為了提升生成能力和可控性,LivePortrait采用69M高質(zhì)量訓(xùn)練幀,視頻-圖片混合訓(xùn)練策略,升級網(wǎng)絡(luò)結(jié)構(gòu),并設(shè)計了更好的動作建模和優(yōu)化方式。此外,LivePortrait將隱式關(guān)鍵點看成一種面部混合變形 (Blendshape) 的有效隱式表示,并基于此精心提出了貼合 (stitching) 和重定向 (retargeting) 模塊。這兩個模塊為輕量MLP網(wǎng)絡(luò),因此在提升可控性的同時,計算成本可以忽略。即使是和一些已有的基于擴散模型的方法比較,LivePortrait依舊很能打。同時,在RTX4090 GPU上,LivePortrait的單幀生成速度能夠達到12.8ms,若經(jīng)過進一步優(yōu)化,如TensorRT,預(yù)計能達10ms以內(nèi)!
LivePortrait的模型訓(xùn)練分為兩階段。第一階段為基礎(chǔ)模型訓(xùn)練,第二階段為貼合和重定向模塊訓(xùn)練。
第一階段:基礎(chǔ)模型訓(xùn)練
在第一階段模型訓(xùn)練中,LivePortrait對基于隱式點的框架,如Face Vid2vid[1],做了一系列改進,包括:
高質(zhì)量訓(xùn)練數(shù)據(jù)收集:LivePortrait采用了公開視頻數(shù)據(jù)集Voxceleb[2],MEAD[3],RAVDESS [4]和風(fēng)格化圖片數(shù)據(jù)集AAHQ[5]。此外,還使用了大規(guī)模4K分辨率的人像視頻,包含不同的表情和姿態(tài),200余小時的說話人像視頻,一個私有的數(shù)據(jù)集LightStage[6],以及一些風(fēng)格化的視頻和圖片。LivePortrait將長視頻分割成少于30秒的片段,并確保每個片段只包含一個人。為了保證訓(xùn)練數(shù)據(jù)的質(zhì)量,LivePortrait使用快手自研的KVQ[7](快手自研的視頻質(zhì)量評估方法,能夠綜合感知視頻的質(zhì)量、內(nèi)容、場景、美學(xué)、編碼、音頻等特征,執(zhí)行多維度評價)來過濾低質(zhì)量的視頻片段。總訓(xùn)練數(shù)據(jù)有69M視頻,包含18.9K身份和60K靜態(tài)風(fēng)格化人像。
視頻-圖像混合訓(xùn)練:僅使用真人人像視頻訓(xùn)練的模型對于真人人像表現(xiàn)良好,但對風(fēng)格化人像(例如動漫)的泛化能力不足。風(fēng)格化的人像視頻是較為稀有的,LivePortrait從不到100個身份中收集了僅約1.3K視頻片段。相比之下,高質(zhì)量的風(fēng)格化人像圖片更為豐富,LivePortrait收集了大約60K身份互異的圖片,提供多樣身份信息。為了利用這兩種數(shù)據(jù)類型,LivePortrait將每張圖片視為一幀視頻片段,并同時在視頻和圖片上訓(xùn)練模型。這種混合訓(xùn)練提升了模型的泛化能力。
升級的網(wǎng)絡(luò)結(jié)構(gòu):LivePortrait將規(guī)范隱式關(guān)鍵點估計網(wǎng)絡(luò) (L),頭部姿態(tài)估計網(wǎng)絡(luò) (H) 和表情變形估計網(wǎng)絡(luò) (Δ) 統(tǒng)一為了一個單一模型 (M),并采用ConvNeXt-V2-Tiny[8]為其結(jié)構(gòu),從而直接估計輸入圖片的規(guī)范隱式關(guān)鍵點,頭部姿態(tài)和表情變形。此外,受到face vid2vid相關(guān)工作啟發(fā),LivePortrait采用效果更優(yōu)的SPADE[9]的解碼器作為生成器 (G)。隱式特征 (fs) 在變形后被細(xì)致地輸入SPADE解碼器,其中隱式特征的每個通道作為語義圖來生成驅(qū)動后的圖片。為了提升效率,LivePortrait還插入PixelShuffle[10]層作為 (G) 的最后一層,從而將分辨率由256提升為512。
更靈活的動作變換建模:原始隱式關(guān)鍵點的計算建模方式忽視了縮放系數(shù),導(dǎo)致該縮放容易被學(xué)到表情系數(shù)里,使得訓(xùn)練難度變大。為了解決這個問題,LivePortrait在建模中引入了縮放因子。LivePortrait發(fā)現(xiàn)縮放正則投影會導(dǎo)致過于靈活的可學(xué)習(xí)表情系數(shù),造成跨身份驅(qū)動時的紋理粘連。因此LivePortrait采用的變換是一種靈活性和驅(qū)動性之間的折衷。
關(guān)鍵點引導(dǎo)的隱式關(guān)鍵點優(yōu)化:原始的隱式點框架似乎缺少生動驅(qū)動面部表情的能力,例如眨眼和眼球運動。具體來說,驅(qū)動結(jié)果中人像的眼球方向和頭部朝向往往保持平行。LivePortrait將這些限制歸因于無監(jiān)督學(xué)習(xí)細(xì)微面部表情的困難。為了解決這個問題,LivePortrait引入了2D關(guān)鍵點來捕捉微表情,用關(guān)鍵點引導(dǎo)的損失 (Lguide)作為隱式關(guān)鍵點優(yōu)化的引導(dǎo)。
級聯(lián)損失函數(shù):LivePortrait采用了face vid2vid的隱式關(guān)鍵點不變損失 (LE),關(guān)鍵點先驗損失 (LL),頭部姿態(tài)損失 (LH) 和變形先驗損失 (LΔ)。為了進一步提升紋理質(zhì)量,LivePortrait采用了感知和GAN損失,不僅對輸入圖的全局領(lǐng)域,面部和嘴部的局部領(lǐng)域也施加了這些損失,記為級聯(lián)感知損失 (LP,cascade) 和級聯(lián)GAN損失 (LG,cascade) 。面部和嘴部區(qū)域由2D語義關(guān)鍵點定義。LivePortrait也采用了人臉身份損失 (Lfaceid) 來保留參考圖片的身份。
第一階段的所有模塊為從頭訓(xùn)練,總的訓(xùn)練優(yōu)化函數(shù) (Lbase) 為以上損失項的加權(quán)和。
LivePortrait的相關(guān)技術(shù)點,已在快手的諸多業(yè)務(wù)完成落地,包括快手魔表、快手私信、快影的AI表情玩法、快手直播、以及快手孵化的面向年輕人的噗嘰APP等,并將探索新的落地方式,持續(xù)為用戶創(chuàng)造價值。此外,LivePortrait會基于可靈基礎(chǔ)模型,進一步探索多模態(tài)驅(qū)動的人像視頻生成,追求更高品質(zhì)的效果。
現(xiàn)在,無論你是想制作一段個性化的肖像視頻,還是想給老照片賦予新的生命,LivePortrait都能幫你輕松實現(xiàn)。這不僅僅是一個工具,更是一個讓創(chuàng)意無限擴展的平臺。所以,別再讓你的照片沉睡在相冊里了,讓LivePortrait喚醒它們,讓它們動起來,講述屬于它們自己的故事。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/131136.html
摘要:最近,這就是街舞第二季開播,又一次燃起了全民熱舞的風(fēng)潮。然而,真要自己跳起來,實際與想象之間,估計差了若干個羅志祥。系統(tǒng)映射結(jié)果展示對于系統(tǒng)的結(jié)果,研究人員表示還不完美。谷歌在和跳舞的結(jié)合上也花了心思。好了,先不說了,我要去跟學(xué)跳舞了。 最近,《這!就是街舞》第二季開播,又一次燃起了全民熱舞的風(fēng)潮。 剛開播沒多久,這個全程高能的節(jié)目,就在豆瓣上就得到了 9.6 的高分。舞者們在比賽中精...
摘要:而另一款網(wǎng)紅產(chǎn)品抖音,也在去年底上線過一個尬舞機的音樂體感游戲現(xiàn)在成了隱藏功能游戲開始后,隨著音樂會給出不同的動作提示,用戶按照提示擺出正確動作即可得分。 如今說到體感游戲,大家一定都不陌生,比如微軟的 Kinect、任天堂的 Switch,都曾是游戲業(yè)的革命性產(chǎn)品。而另一款網(wǎng)紅產(chǎn)品—抖音,也在去年底上線過一個尬舞機的音樂體感游戲(現(xiàn)在成了隱藏功能): showImg(https://...
摘要:人臉識別技術(shù)所獨具的活性判別能力保證了他人無法以非活性的照片木偶蠟像來欺騙識別系統(tǒng)。人臉識別技術(shù)所采用的依據(jù)是人臉照片或?qū)崟r攝取的人臉圖像,因而無疑是最容易獲得的。 人臉識別是近年來模式識別、圖像處理、機器視覺、神經(jīng)網(wǎng)絡(luò)以及認(rèn)知科學(xué)等領(lǐng)域研究的熱點課題之一,被廣泛應(yīng)用于公共安全(罪犯識別等)...
摘要:阿里巴巴集團安全部今年在直播管控中的特色在于大量采用人工智能和深度學(xué)習(xí)等技術(shù),配合優(yōu)化后的高性能多媒體計算集群,大幅度降低人工審核成本的同時,提升了對內(nèi)容風(fēng)險的防控能力。 阿里巴巴直播內(nèi)容風(fēng)險防控中的AI力量 直播作為近來新興的互動形態(tài)和今年阿里巴巴雙十一的一大亮點,其內(nèi)容風(fēng)險監(jiān)控是一個全新的課題,技術(shù)的挑戰(zhàn)非常大,管控難點主要包括業(yè)界缺乏成熟方案和標(biāo)準(zhǔn)、主播行為、直播內(nèi)容不可控、峰值...
閱讀 177·2024-11-07 17:59
閱讀 225·2024-09-27 16:59
閱讀 357·2024-09-23 10:37
閱讀 403·2024-09-14 16:58
閱讀 267·2024-09-14 16:58
閱讀 371·2024-08-29 18:47
閱讀 603·2024-08-16 14:40
閱讀 323·2024-08-14 17:54