快手開源LivePortrait：將照片變?yōu)樯鷦右曨l，實現(xiàn)表情姿態(tài)極速遷移

UCloud小助手發(fā)布于2024-07-18 15:30 / 428人閱讀

近日，當(dāng)下炙手可熱的快手宣布開源旗下明星產(chǎn)品可靈中一項重要技術(shù)項目LivePortrait。，該框架能夠準(zhǔn)確、實時地將驅(qū)動視頻的表情、姿態(tài)遷移到靜態(tài)或動態(tài)人像視頻上，生成極具表現(xiàn)力的視頻結(jié)果。如下動圖所示：

LivePortrait的主要功能包括從單一圖像生成生動動畫、精確控制眼睛和嘴唇的動作、處理多個人物肖像的無縫拼接、支持多風(fēng)格肖像、生成高分辨率動畫等。這些功能不僅讓LivePortrait在動畫生成上更加靈活多變，也為用戶提供了更多的創(chuàng)意空間。

并且，LivePortrait發(fā)布即可用，秉承快手風(fēng)格，論文、主頁、代碼一鍵三連。LivePortrait一經(jīng)開源，就得到了HuggingFace首席執(zhí)行官Clément Delangue的關(guān)注轉(zhuǎn)發(fā)，首席戰(zhàn)略官 Thomas Wolf還親自體驗了功能，厲害了！

同時，LivePotrait獲得了開源社區(qū)的廣泛關(guān)注，短短一周多時間左右，在GitHub上總計收獲了6.4K Stars，550 Forks，140 Issues&PRs，獲得廣泛好評，關(guān)注仍在持續(xù)增長中：

方法介紹

和當(dāng)前主流基于擴散模型的方法不同，LivePortrait探索并拓展了基于隱式關(guān)鍵點框架的潛力，從而平衡了模型計算效率和可控性。LivePortrait聚焦于更好的泛化性，可控性和實用的效率。為了提升生成能力和可控性，LivePortrait采用69M高質(zhì)量訓(xùn)練幀，視頻-圖片混合訓(xùn)練策略，升級網(wǎng)絡(luò)結(jié)構(gòu)，并設(shè)計了更好的動作建模和優(yōu)化方式。此外，LivePortrait將隱式關(guān)鍵點看成一種面部混合變形 (Blendshape) 的有效隱式表示，并基于此精心提出了貼合 (stitching) 和重定向 (retargeting) 模塊。這兩個模塊為輕量MLP網(wǎng)絡(luò)，因此在提升可控性的同時，計算成本可以忽略。即使是和一些已有的基于擴散模型的方法比較，LivePortrait依舊很能打。同時，在RTX4090 GPU上，LivePortrait的單幀生成速度能夠達到12.8ms，若經(jīng)過進一步優(yōu)化，如TensorRT，預(yù)計能達10ms以內(nèi)！

LivePortrait的模型訓(xùn)練分為兩階段。第一階段為基礎(chǔ)模型訓(xùn)練，第二階段為貼合和重定向模塊訓(xùn)練。

第一階段：基礎(chǔ)模型訓(xùn)練

在第一階段模型訓(xùn)練中，LivePortrait對基于隱式點的框架，如Face Vid2vid[1]，做了一系列改進，包括：

高質(zhì)量訓(xùn)練數(shù)據(jù)收集：LivePortrait采用了公開視頻數(shù)據(jù)集Voxceleb[2]，MEAD[3]，RAVDESS [4]和風(fēng)格化圖片數(shù)據(jù)集AAHQ[5]。此外，還使用了大規(guī)模4K分辨率的人像視頻，包含不同的表情和姿態(tài)，200余小時的說話人像視頻，一個私有的數(shù)據(jù)集LightStage[6]，以及一些風(fēng)格化的視頻和圖片。LivePortrait將長視頻分割成少于30秒的片段，并確保每個片段只包含一個人。為了保證訓(xùn)練數(shù)據(jù)的質(zhì)量，LivePortrait使用快手自研的KVQ[7]（快手自研的視頻質(zhì)量評估方法，能夠綜合感知視頻的質(zhì)量、內(nèi)容、場景、美學(xué)、編碼、音頻等特征，執(zhí)行多維度評價）來過濾低質(zhì)量的視頻片段。總訓(xùn)練數(shù)據(jù)有69M視頻，包含18.9K身份和60K靜態(tài)風(fēng)格化人像。

視頻-圖像混合訓(xùn)練：僅使用真人人像視頻訓(xùn)練的模型對于真人人像表現(xiàn)良好，但對風(fēng)格化人像（例如動漫）的泛化能力不足。風(fēng)格化的人像視頻是較為稀有的，LivePortrait從不到100個身份中收集了僅約1.3K視頻片段。相比之下，高質(zhì)量的風(fēng)格化人像圖片更為豐富，LivePortrait收集了大約60K身份互異的圖片，提供多樣身份信息。為了利用這兩種數(shù)據(jù)類型，LivePortrait將每張圖片視為一幀視頻片段，并同時在視頻和圖片上訓(xùn)練模型。這種混合訓(xùn)練提升了模型的泛化能力。

升級的網(wǎng)絡(luò)結(jié)構(gòu)：LivePortrait將規(guī)范隱式關(guān)鍵點估計網(wǎng)絡(luò) (L)，頭部姿態(tài)估計網(wǎng)絡(luò) (H) 和表情變形估計網(wǎng)絡(luò) (Δ) 統(tǒng)一為了一個單一模型 (M)，并采用ConvNeXt-V2-Tiny[8]為其結(jié)構(gòu)，從而直接估計輸入圖片的規(guī)范隱式關(guān)鍵點，頭部姿態(tài)和表情變形。此外，受到face vid2vid相關(guān)工作啟發(fā)，LivePortrait采用效果更優(yōu)的SPADE[9]的解碼器作為生成器 (G)。隱式特征 (fs) 在變形后被細(xì)致地輸入SPADE解碼器，其中隱式特征的每個通道作為語義圖來生成驅(qū)動后的圖片。為了提升效率，LivePortrait還插入PixelShuffle[10]層作為 (G) 的最后一層，從而將分辨率由256提升為512。

更靈活的動作變換建模：原始隱式關(guān)鍵點的計算建模方式忽視了縮放系數(shù)，導(dǎo)致該縮放容易被學(xué)到表情系數(shù)里，使得訓(xùn)練難度變大。為了解決這個問題，LivePortrait在建模中引入了縮放因子。LivePortrait發(fā)現(xiàn)縮放正則投影會導(dǎo)致過于靈活的可學(xué)習(xí)表情系數(shù)，造成跨身份驅(qū)動時的紋理粘連。因此LivePortrait采用的變換是一種靈活性和驅(qū)動性之間的折衷。

關(guān)鍵點引導(dǎo)的隱式關(guān)鍵點優(yōu)化：原始的隱式點框架似乎缺少生動驅(qū)動面部表情的能力，例如眨眼和眼球運動。具體來說，驅(qū)動結(jié)果中人像的眼球方向和頭部朝向往往保持平行。LivePortrait將這些限制歸因于無監(jiān)督學(xué)習(xí)細(xì)微面部表情的困難。為了解決這個問題，LivePortrait引入了2D關(guān)鍵點來捕捉微表情，用關(guān)鍵點引導(dǎo)的損失 (Lguide)作為隱式關(guān)鍵點優(yōu)化的引導(dǎo)。

級聯(lián)損失函數(shù)：LivePortrait采用了face vid2vid的隱式關(guān)鍵點不變損失 (LE)，關(guān)鍵點先驗損失 (LL)，頭部姿態(tài)損失 (LH) 和變形先驗損失 (LΔ)。為了進一步提升紋理質(zhì)量，LivePortrait采用了感知和GAN損失，不僅對輸入圖的全局領(lǐng)域，面部和嘴部的局部領(lǐng)域也施加了這些損失，記為級聯(lián)感知損失 (LP,cascade) 和級聯(lián)GAN損失 (LG,cascade) 。面部和嘴部區(qū)域由2D語義關(guān)鍵點定義。LivePortrait也采用了人臉身份損失 (Lfaceid) 來保留參考圖片的身份。

第一階段的所有模塊為從頭訓(xùn)練，總的訓(xùn)練優(yōu)化函數(shù) (Lbase) 為以上損失項的加權(quán)和。

第二階段：貼合和重定向模塊訓(xùn)練

LivePortrait將隱式關(guān)鍵點可以看成一種隱式混合變形，并發(fā)現(xiàn)這種組合只需借助一個輕量的MLP便可被較好地學(xué)習(xí)，計算消耗可忽略。考慮到實際需求，LivePortrait設(shè)計了一個貼合模塊、眼部重定向模塊和嘴部重定向模塊。當(dāng)參考人像被裁切時，驅(qū)動后的人像會從裁圖空間被反貼回原始圖像空間，貼合模塊的加入是為了避免反貼過程中出現(xiàn)像素錯位，比如肩膀區(qū)域。由此，LivePortrait能對更大的圖片尺寸或多人合照進行動作驅(qū)動。眼部重定向模塊旨在解決跨身份驅(qū)動時眼睛閉合不完全的問題，尤其是當(dāng)眼睛小的人像驅(qū)動眼睛大的人像時。嘴部重定向模塊的設(shè)計思想類似于眼部重定向模塊，它通過將參考圖片的嘴部驅(qū)動為閉合狀態(tài)來規(guī)范輸入，從而更好地進行驅(qū)動。

貼合模塊：在訓(xùn)練過程中，貼合模塊 (S) 的輸入為參考圖的隱式關(guān)鍵點 (xs) 和另一身份驅(qū)動幀的隱式關(guān)鍵點 (xd)，并估計驅(qū)動隱式關(guān)鍵點 (xd) 的表情變化量 (Δst)?？梢钥吹剑偷谝浑A段不同，LivePortrait采用跨身份的動作替代同身份的動作來增加訓(xùn)練難度，旨在使貼合模塊具有更好的泛化性。接著，驅(qū)動隱式關(guān)鍵點 (xd) 被更新，對應(yīng)的驅(qū)動輸出為 (Ip,st) 。LivePortrait在這一階段也同時輸出自重建圖片 (Ip,recon)。最后，貼合模塊的損失函數(shù)(Lst) 計算兩者肩膀區(qū)域的像素一致?lián)p失以及貼合變化量的正則損失。

眼部和嘴部重定向模塊：眼部重定向模塊 (Reyes) 的輸入為參考圖隱式關(guān)鍵點 (xs)，參考圖眼部張開條件元組和一個隨機的驅(qū)動眼部張開系數(shù)，由此估計驅(qū)動關(guān)鍵點的變形變化量 (Δeyes)。眼部張開條件元組表示眼部張開比例，越大表示眼部張開程度越大。類似的，嘴部重定向模塊 (Rlip) 的輸入為參考圖隱式關(guān)鍵點 (xs)，參考圖嘴部張開條件系數(shù)和一個隨機的驅(qū)動嘴部張開系數(shù)，并由此估計驅(qū)動關(guān)鍵點的變化量 (Δlip)。接著，驅(qū)動關(guān)鍵點 (xd) 分別被眼部和嘴部對應(yīng)的變形變化量更新，對應(yīng)的驅(qū)動輸出為 (Ip,eyes) 和 (Ip,lip) 。最后，眼部和嘴部重定向模塊的目標(biāo)函數(shù)分別為 (Leyes) 和 (Llip)，分別計算眼部和嘴部區(qū)域的像素一致性損失，眼部和嘴部變化量的正則損失，以及隨機驅(qū)動系數(shù)與驅(qū)動輸出的張開條件系數(shù)之間的損失。眼部和嘴部的變化量 (Δeyes) 和 (Δlip) 是相互獨立的，因此在推理階段，它們可以被線性相加并更新驅(qū)動隱式關(guān)鍵點。

總結(jié)以及未來前景

LivePortrait的相關(guān)技術(shù)點，已在快手的諸多業(yè)務(wù)完成落地，包括快手魔表、快手私信、快影的AI表情玩法、快手直播、以及快手孵化的面向年輕人的噗嘰APP等，并將探索新的落地方式，持續(xù)為用戶創(chuàng)造價值。此外，LivePortrait會基于可靈基礎(chǔ)模型，進一步探索多模態(tài)驅(qū)動的人像視頻生成，追求更高品質(zhì)的效果。

現(xiàn)在，無論你是想制作一段個性化的肖像視頻，還是想給老照片賦予新的生命，LivePortrait都能幫你輕松實現(xiàn)。這不僅僅是一個工具，更是一個讓創(chuàng)意無限擴展的平臺。所以，別再讓你的照片沉睡在相冊里了，讓LivePortrait喚醒它們，讓它們動起來，講述屬于它們自己的故事。

GPU云服務(wù)器 GPU算力平臺 linux將磁盤變?yōu)槁惚P 快手照片怎么翻頁如何通過阿里云服務(wù)器將本地硬盤變?yōu)樵票P java加表情包實現(xiàn)

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/131136.html

發(fā)表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關(guān)注我要私信

TA的文章

服務(wù)器常用端口大全

閱讀 177·2024-11-07 17:59
又來!OpenAI 宮斗大戲曝光,首席技術(shù)官Mira 離職

閱讀 225·2024-09-27 16:59
2.4K star的GOT-OCR2.0：端到端OCR 模型

閱讀 357·2024-09-23 10:37
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 403·2024-09-14 16:58
Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

閱讀 267·2024-09-14 16:58
網(wǎng)頁開發(fā)助手——自動編寫運行代碼

閱讀 371·2024-08-29 18:47
一直爆料OpenAI「草莓」的賬號，竟然是個智能體？Agent Q橫空出世，AI界新秀or營銷大師

閱讀 603·2024-08-16 14:40
傳媒人必備：不花錢的AI開源視頻神助攻

閱讀 323·2024-08-14 17:54

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

快手開源LivePortrait：將照片變?yōu)樯鷦右曨l，實現(xiàn)表情姿態(tài)極速遷移

相關(guān)文章

吃了這些數(shù)據(jù)集和模型，跟 AI 學(xué)跳舞，做 TensorFlowBoys

**用 Python+openpose 實現(xiàn)抖音尬舞機**

淺談人臉識別技術(shù)的方法和應(yīng)用

阿里巴巴直播內(nèi)容風(fēng)險防控中的AI力量

發(fā)表評論

0條評論

UCloud小助手

男|高級講師

TA的文章

服務(wù)器常用端口大全

又來!OpenAI 宮斗大戲曝光,首席技術(shù)官Mira 離職

2.4K star的GOT-OCR2.0：端到端OCR 模型

Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

Openai 放出大招！O1: 邁向下一代人工智能的2.0時代

網(wǎng)頁開發(fā)助手——自動編寫運行代碼

一直爆料OpenAI「草莓」的賬號，竟然是個智能體？Agent Q橫空出世，AI界新秀or營銷大師

傳媒人必備：不花錢的AI開源視頻神助攻

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

快手開源LivePortrait：將照片變?yōu)樯鷦右曨l，實現(xiàn)表情姿態(tài)極速遷移

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！