智譜 AI 開源視頻生成模型CogVideoX：?jiǎn)螐?4090 顯卡即可推理

UCloud小助手發(fā)布于2024-08-06 18:03 / 382人閱讀

隨著大型模型技術(shù)的持續(xù)發(fā)展，視頻生成技術(shù)正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術(shù)，正在重新定義行業(yè)的未來格局。

而近幾個(gè)月，國(guó)產(chǎn)的AI視頻生成模型也是層出不窮,像是快手可靈、字節(jié)即夢(mèng)、智譜清影、Vidu、PixVerse V2 等。

就在近日，智譜AI秉承“以先進(jìn)技術(shù)，服務(wù)全球開發(fā)者”的理念，宣布將與“清影”同源的視頻生成模型——CogVideoX開源，以期讓每一位開發(fā)者、每一家企業(yè)都能自由地開發(fā)屬于自己的視頻生成模型，從而推動(dòng)整個(gè)行業(yè)的快速迭代與創(chuàng)新發(fā)展。

而近幾個(gè)月，國(guó)產(chǎn)的AI視頻生成模型也是層出不窮,像是快手可靈、字節(jié)即夢(mèng)、智譜清影、Vidu、PixVerse V2 等。

CogVideoX是什么？

CogVideoX是智譜AI最新推出的開源AI視頻生成模型，與智譜AI的商業(yè)產(chǎn)品“清影”同源。

CogVideoX支持英文提示詞，能生成6秒長(zhǎng)、每秒8幀、分辨率為720*480的視頻。模型推理需16—36GB顯存，目前不支持量化推理和多卡推理。項(xiàng)目還包括3D Causal VAE組件用于視頻重建，以及豐富的示例和工具，包括CLI/WEB Demo、在線體驗(yàn)、API接口示例和微調(diào)指南。

CogVideoX-2B的提示詞上限為226個(gè)token，視頻長(zhǎng)度為6秒，幀率為8幀/秒，視頻分辨率為720*480?，F(xiàn)在主流的AI視頻，全部都是閉源的，有一個(gè)說是開源的Open-Sora，說實(shí)話實(shí)測(cè)下來的效果也是差強(qiáng)人意。而CogVideoX的效果雖然和主流的閉源模型尚存在一些差距，但是總的來講還是值得使用的。

簡(jiǎn)單來說，CogVideoX是一個(gè)能夠?qū)⒛愕奈淖种苯愚D(zhuǎn)換成視頻的神奇工具。這次的CogVideoX-2B模型，不僅視頻生成能力驚人，而且對(duì)電腦配置的要求并不高，讓普通用戶也能輕松上手。

模型亮點(diǎn)

CogVideoX-2B的亮點(diǎn)可不少。生成視頻時(shí)，你需要準(zhǔn)備18GB的GPU內(nèi)存（如果使用SAT技術(shù)），而使用diffusers的話，則需要36GB，但據(jù)說這個(gè)要求很快就會(huì)得到優(yōu)化。如果你想要自己動(dòng)手調(diào)教這個(gè)模型，那么40GB的GPU內(nèi)存是必不可少的。生成的視頻長(zhǎng)度為6秒，分辨率為720 * 480，幀率為8幀/秒。目前，它還不支持量化推理和多卡推理，但這并不影響它在視頻生成技術(shù)上的重大意義。

專家 Transformer

使用VAE的編碼器將視頻壓縮至潛在空間，然后將潛在空間分割成塊并展開成長(zhǎng)的序列嵌入z_vision。同時(shí)，我們使用T5，將文本輸入編碼為文本嵌入z_text，然后將z_text和z_vision沿序列維度拼接。拼接后的嵌入被送入專家Transformer塊堆棧中處理。最后，我們反向拼接嵌入來恢復(fù)原始潛在空間形狀，并使用VAE進(jìn)行解碼以重建視頻。

Data

視頻生成模型訓(xùn)練需篩選高質(zhì)量視頻數(shù)據(jù)，以學(xué)習(xí)真實(shí)世界動(dòng)態(tài)。視頻可能因人工編輯或拍攝問題而不準(zhǔn)確。為此，團(tuán)隊(duì)開發(fā)了負(fù)面標(biāo)簽來識(shí)別和排除低質(zhì)量視頻，如過度編輯、運(yùn)動(dòng)不連貫、質(zhì)量低下、講座式、文本主導(dǎo)和屏幕噪音視頻。通過video-llama訓(xùn)練的過濾器，我們標(biāo)注并篩選了20,000個(gè)視頻數(shù)據(jù)點(diǎn)。

同時(shí)，計(jì)算光流和美學(xué)分?jǐn)?shù)，動(dòng)態(tài)調(diào)整閾值，確保生成視頻的質(zhì)量。視頻數(shù)據(jù)通常沒有文本描述，需要轉(zhuǎn)換為文本描述以供文本到視頻模型訓(xùn)練?，F(xiàn)有的視頻字幕數(shù)據(jù)集字幕較短，無法全面描述視頻內(nèi)容。

團(tuán)隊(duì)提出了一種從圖像字幕生成視頻字幕的管道，并微調(diào)端到端的視頻字幕模型以獲得更密集的字幕。這種方法通過Panda70M模型生成簡(jiǎn)短字幕，使用CogView3模型生成密集圖像字幕，然后使用GPT-4模型總結(jié)生成最終的短視頻。

還微調(diào)了一個(gè)基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型，使用密集字幕數(shù)據(jù)進(jìn)行訓(xùn)練，以加速視頻字幕生成過程。

實(shí)例展示

一艘精致的木制玩具船，桅桿和船帆上雕刻著復(fù)雜的圖案，在模擬海浪的藍(lán)色長(zhǎng)毛絨地毯上平穩(wěn)地滑行。船身漆成濃郁的棕色，并帶有小窗戶。地毯柔軟而有質(zhì)感，提供了一個(gè)完美的背景，就像一片廣闊的海洋。船的周圍環(huán)繞著各種玩具和兒童用品，暗示著一個(gè)充滿童趣的環(huán)境。這個(gè)場(chǎng)景捕捉到了童年的天真和想象力，玩具船的旅程象征著在異想天開的室內(nèi)環(huán)境中的無盡冒險(xiǎn)。

鏡頭跟在一輛白色復(fù)古越野車后面，車頂有黑色行李架，越野車在陡峭的山坡上沿著松樹環(huán)繞的陡峭土路快速行駛，輪胎上的塵土飛揚(yáng)，陽(yáng)光照在越野車上，越野車在土路上快速行駛，給整個(gè)場(chǎng)景投下了溫暖的光輝。土路緩緩彎向遠(yuǎn)方，看不到其他車輛。道路兩旁的樹木都是紅杉，還有零星的綠色植物。從后方看，汽車輕松地沿著彎道行駛，仿佛在崎嶇的地形上行駛。土路本身被陡峭的丘陵和山脈環(huán)繞，頭頂是晴朗的藍(lán)天和飄渺的白云。

在一個(gè)飽受戰(zhàn)爭(zhēng)蹂躪的城市，廢墟和殘?jiān)珨啾谠V說著滿目瘡痍，在這個(gè)令人心碎的背景下，一個(gè)凄美的特寫鏡頭定格了一個(gè)年輕的女孩。她的臉上沾滿了灰燼，無聲地證明著周圍的混亂。她的眼睛里閃爍著悲傷和堅(jiān)韌，捕捉到了這個(gè)因沖突而失去天真世界的原始情感。

小結(jié)：智譜清影引領(lǐng)視頻生成技術(shù)新潮流

CogVideoX-2B的開源，無疑是在視頻生成技術(shù)上的一大步。它讓普通人也能輕松制作出高質(zhì)量的視頻內(nèi)容，而且開源這件事，讓全球的開發(fā)者和研究者都能參與到這個(gè)技術(shù)的共享和進(jìn)步中來。

而智譜清影的開源舉措，不僅刷新了視頻生成技術(shù)的邊界，也為技術(shù)愛好者開辟了新的學(xué)習(xí)天地。當(dāng)前，視頻生成領(lǐng)域充滿活力，似乎昭示著國(guó)內(nèi)AI視頻技術(shù)即將邁入全新時(shí)代。智譜清影的這一策略，無疑將其置于視頻生成領(lǐng)域的先鋒地位，未來的前景令人翹首以待。此次行動(dòng)不僅是技術(shù)上的決斷，更是對(duì)開源共享信念的踐行，它傳遞出一個(gè)信息：技術(shù)的未來屬于每一個(gè)愿意開源和分享的企業(yè)與個(gè)人。期待不久的將來，我們都能借助CogVideoX，創(chuàng)造出屬于我們自己的視頻生成奇跡。

GPU云服務(wù)器 GPU算力平臺(tái) 語(yǔ)言模型推理服務(wù)器級(jí) ai顯卡推薦開源云服務(wù)器和獨(dú)立顯卡 ai智能語(yǔ)音系統(tǒng)開源

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/131147.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

UCloud小助手

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

服務(wù)器常用端口大全

閱讀 177·2024-11-07 17:59
又來!OpenAI 宮斗大戲曝光,首席技術(shù)官M(fèi)ira 離職

閱讀 225·2024-09-27 16:59
2.4K star的GOT-OCR2.0：端到端OCR 模型

閱讀 357·2024-09-23 10:37
Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

閱讀 403·2024-09-14 16:58
Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

閱讀 267·2024-09-14 16:58
網(wǎng)頁(yè)開發(fā)助手——自動(dòng)編寫運(yùn)行代碼

閱讀 371·2024-08-29 18:47
一直爆料OpenAI「草莓」的賬號(hào)，竟然是個(gè)智能體？Agent Q橫空出世，AI界新秀or營(yíng)銷大師

閱讀 603·2024-08-16 14:40
傳媒人必備：不花錢的AI開源視頻神助攻

閱讀 323·2024-08-14 17:54

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

智譜 AI 開源視頻生成模型CogVideoX：?jiǎn)螐?4090 顯卡即可推理

CogVideoX是什么？

模型亮點(diǎn)

實(shí)例展示

小結(jié)：智譜清影引領(lǐng)視頻生成技術(shù)新潮流

相關(guān)文章

智譜AI最新GLM-4-Plus上線開放平臺(tái)！可視頻通話

**買了一張4090顯卡除了打游戲還能做什么？**

**Mistral聯(lián)合英偉達(dá)開源12B小模型：碾壓Llama 3，單張4090可跑**

發(fā)表評(píng)論

0條評(píng)論

UCloud小助手

男|高級(jí)講師

TA的文章

服務(wù)器常用端口大全

又來!OpenAI 宮斗大戲曝光,首席技術(shù)官M(fèi)ira 離職

2.4K star的GOT-OCR2.0：端到端OCR 模型

Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

網(wǎng)頁(yè)開發(fā)助手——自動(dòng)編寫運(yùn)行代碼

一直爆料OpenAI「草莓」的賬號(hào)，竟然是個(gè)智能體？Agent Q橫空出世，AI界新秀or營(yíng)銷大師

傳媒人必備：不花錢的AI開源視頻神助攻

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！

智譜 AI 開源視頻生成模型CogVideoX：?jiǎn)螐?4090 顯卡即可推理

CogVideoX是什么？

模型亮點(diǎn)

實(shí)例展示

小結(jié)：智譜清影引領(lǐng)視頻生成技術(shù)新潮流

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購(gòu)季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長(zhǎng)期優(yōu)惠，快來選購(gòu)！