隨著大型模型技術(shù)的持續(xù)發(fā)展,視頻生成技術(shù)正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術(shù),正在重新定義行業(yè)的未來格局。
而近幾個(gè)月,國(guó)產(chǎn)的AI視頻生成模型也是層出不窮,像是快手可靈、字節(jié)即夢(mèng)、智譜清影、Vidu、PixVerse V2 等。
就在近日,智譜AI秉承“以先進(jìn)技術(shù),服務(wù)全球開發(fā)者”的理念,宣布將與“清影”同源的視頻生成模型——CogVideoX開源,以期讓每一位開發(fā)者、每一家企業(yè)都能自由地開發(fā)屬于自己的視頻生成模型,從而推動(dòng)整個(gè)行業(yè)的快速迭代與創(chuàng)新發(fā)展。
隨著大型模型技術(shù)的持續(xù)發(fā)展,視頻生成技術(shù)正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術(shù),正在重新定義行業(yè)的未來格局。
而近幾個(gè)月,國(guó)產(chǎn)的AI視頻生成模型也是層出不窮,像是快手可靈、字節(jié)即夢(mèng)、智譜清影、Vidu、PixVerse V2 等。
就在近日,智譜AI秉承“以先進(jìn)技術(shù),服務(wù)全球開發(fā)者”的理念,宣布將與“清影”同源的視頻生成模型——CogVideoX開源,以期讓每一位開發(fā)者、每一家企業(yè)都能自由地開發(fā)屬于自己的視頻生成模型,從而推動(dòng)整個(gè)行業(yè)的快速迭代與創(chuàng)新發(fā)展。
CogVideoX是智譜AI最新推出的開源AI視頻生成模型,與智譜AI的商業(yè)產(chǎn)品“清影”同源。
CogVideoX支持英文提示詞,能生成6秒長(zhǎng)、每秒8幀、分辨率為720*480的視頻。模型推理需16—36GB顯存,目前不支持量化推理和多卡推理。項(xiàng)目還包括3D Causal VAE組件用于視頻重建,以及豐富的示例和工具,包括CLI/WEB Demo、在線體驗(yàn)、API接口示例和微調(diào)指南。
CogVideoX-2B的提示詞上限為226個(gè)token,視頻長(zhǎng)度為6秒,幀率為8幀/秒,視頻分辨率為720*480?,F(xiàn)在主流的AI視頻,全部都是閉源的,有一個(gè)說是開源的Open-Sora,說實(shí)話實(shí)測(cè)下來的效果也是差強(qiáng)人意。而CogVideoX的效果雖然和主流的閉源模型尚存在一些差距,但是總的來講還是值得使用的。
簡(jiǎn)單來說,CogVideoX是一個(gè)能夠?qū)⒛愕奈淖种苯愚D(zhuǎn)換成視頻的神奇工具。這次的CogVideoX-2B模型,不僅視頻生成能力驚人,而且對(duì)電腦配置的要求并不高,讓普通用戶也能輕松上手。
CogVideoX-2B的亮點(diǎn)可不少。生成視頻時(shí),你需要準(zhǔn)備18GB的GPU內(nèi)存(如果使用SAT技術(shù)),而使用diffusers的話,則需要36GB,但據(jù)說這個(gè)要求很快就會(huì)得到優(yōu)化。如果你想要自己動(dòng)手調(diào)教這個(gè)模型,那么40GB的GPU內(nèi)存是必不可少的。生成的視頻長(zhǎng)度為6秒,分辨率為720 * 480,幀率為8幀/秒。目前,它還不支持量化推理和多卡推理,但這并不影響它在視頻生成技術(shù)上的重大意義。
專家 Transformer
使用VAE的編碼器將視頻壓縮至潛在空間,然后將潛在空間分割成塊并展開成長(zhǎng)的序列嵌入z_vision。同時(shí),我們使用T5,將文本輸入編碼為文本嵌入z_text,然后將z_text和z_vision沿序列維度拼接。拼接后的嵌入被送入專家Transformer塊堆棧中處理。最后,我們反向拼接嵌入來恢復(fù)原始潛在空間形狀,并使用VAE進(jìn)行解碼以重建視頻。
Data
視頻生成模型訓(xùn)練需篩選高質(zhì)量視頻數(shù)據(jù),以學(xué)習(xí)真實(shí)世界動(dòng)態(tài)。視頻可能因人工編輯或拍攝問題而不準(zhǔn)確。為此,團(tuán)隊(duì)開發(fā)了負(fù)面標(biāo)簽來識(shí)別和排除低質(zhì)量視頻,如過度編輯、運(yùn)動(dòng)不連貫、質(zhì)量低下、講座式、文本主導(dǎo)和屏幕噪音視頻。通過video-llama訓(xùn)練的過濾器,我們標(biāo)注并篩選了20,000個(gè)視頻數(shù)據(jù)點(diǎn)。
同時(shí),計(jì)算光流和美學(xué)分?jǐn)?shù),動(dòng)態(tài)調(diào)整閾值,確保生成視頻的質(zhì)量。視頻數(shù)據(jù)通常沒有文本描述,需要轉(zhuǎn)換為文本描述以供文本到視頻模型訓(xùn)練?,F(xiàn)有的視頻字幕數(shù)據(jù)集字幕較短,無法全面描述視頻內(nèi)容。
團(tuán)隊(duì)提出了一種從圖像字幕生成視頻字幕的管道,并微調(diào)端到端的視頻字幕模型以獲得更密集的字幕。這種方法通過Panda70M模型生成簡(jiǎn)短字幕,使用CogView3模型生成密集圖像字幕,然后使用GPT-4模型總結(jié)生成最終的短視頻。
還微調(diào)了一個(gè)基于CogVLM2-Video和Llama 3的CogVLM2-Caption模型,使用密集字幕數(shù)據(jù)進(jìn)行訓(xùn)練,以加速視頻字幕生成過程。
一艘精致的木制玩具船,桅桿和船帆上雕刻著復(fù)雜的圖案,在模擬海浪的藍(lán)色長(zhǎng)毛絨地毯上平穩(wěn)地滑行。船身漆成濃郁的棕色,并帶有小窗戶。地毯柔軟而有質(zhì)感,提供了一個(gè)完美的背景,就像一片廣闊的海洋。船的周圍環(huán)繞著各種玩具和兒童用品,暗示著一個(gè)充滿童趣的環(huán)境。這個(gè)場(chǎng)景捕捉到了童年的天真和想象力,玩具船的旅程象征著在異想天開的室內(nèi)環(huán)境中的無盡冒險(xiǎn)。
鏡頭跟在一輛白色復(fù)古越野車后面,車頂有黑色行李架,越野車在陡峭的山坡上沿著松樹環(huán)繞的陡峭土路快速行駛,輪胎上的塵土飛揚(yáng),陽(yáng)光照在越野車上,越野車在土路上快速行駛,給整個(gè)場(chǎng)景投下了溫暖的光輝。土路緩緩彎向遠(yuǎn)方,看不到其他車輛。道路兩旁的樹木都是紅杉,還有零星的綠色植物。從后方看,汽車輕松地沿著彎道行駛,仿佛在崎嶇的地形上行駛。土路本身被陡峭的丘陵和山脈環(huán)繞,頭頂是晴朗的藍(lán)天和飄渺的白云。
在一個(gè)飽受戰(zhàn)爭(zhēng)蹂躪的城市,廢墟和殘?jiān)珨啾谠V說著滿目瘡痍,在這個(gè)令人心碎的背景下,一個(gè)凄美的特寫鏡頭定格了一個(gè)年輕的女孩。她的臉上沾滿了灰燼,無聲地證明著周圍的混亂。她的眼睛里閃爍著悲傷和堅(jiān)韌,捕捉到了這個(gè)因沖突而失去天真世界的原始情感。
CogVideoX-2B的開源,無疑是在視頻生成技術(shù)上的一大步。它讓普通人也能輕松制作出高質(zhì)量的視頻內(nèi)容,而且開源這件事,讓全球的開發(fā)者和研究者都能參與到這個(gè)技術(shù)的共享和進(jìn)步中來。
而智譜清影的開源舉措,不僅刷新了視頻生成技術(shù)的邊界,也為技術(shù)愛好者開辟了新的學(xué)習(xí)天地。當(dāng)前,視頻生成領(lǐng)域充滿活力,似乎昭示著國(guó)內(nèi)AI視頻技術(shù)即將邁入全新時(shí)代。智譜清影的這一策略,無疑將其置于視頻生成領(lǐng)域的先鋒地位,未來的前景令人翹首以待。此次行動(dòng)不僅是技術(shù)上的決斷,更是對(duì)開源共享信念的踐行,它傳遞出一個(gè)信息:技術(shù)的未來屬于每一個(gè)愿意開源和分享的企業(yè)與個(gè)人。期待不久的將來,我們都能借助CogVideoX,創(chuàng)造出屬于我們自己的視頻生成奇跡。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/131147.html
GLM-4-Plus是智譜AI最新推出的旗艦級(jí)預(yù)訓(xùn)練語(yǔ)言模型,標(biāo)志著公司在人工智能技術(shù)上取得了重大突破。相比前一代GLM-3模型,GLM-4-Plus在多個(gè)關(guān)鍵指標(biāo)上實(shí)現(xiàn)了大幅提升,尤其是在語(yǔ)言理解能力、指令遵循能力和長(zhǎng)文本處理能力方面。這些進(jìn)步使得GLM-4-Plus在各類自然語(yǔ)言處理任務(wù)中的表現(xiàn)更加出色。主要更新語(yǔ)言基座模型 GLM-4-Plus:在語(yǔ)言理解、指令遵循、長(zhǎng)文本處理等方面性能得到...
在當(dāng)今的圖形處理領(lǐng)域,NVIDIA一直以其卓越的性能和創(chuàng)新的技術(shù)引領(lǐng)市場(chǎng)潮流。作為其最新的旗艦級(jí)顯卡,GeForce RTX 4090一經(jīng)發(fā)布便吸引了無數(shù)玩家的目光。作為最大的賣點(diǎn),游戲性能以及功效無疑是這張顯卡作為佼佼者的地方;于此同時(shí),其關(guān)于視頻編輯、3D建模、深度學(xué)習(xí)等專業(yè)領(lǐng)域的應(yīng)用以及廣泛的適用性和高效性能同時(shí)也是不可忽視的。視頻編輯與后期制作RTX 4090不僅僅是一塊游戲顯卡,它在視頻...
小模型,成為本周的AI爆點(diǎn)。與動(dòng)輒上千億參數(shù)的大模型相比,小模型的優(yōu)勢(shì)是顯而易見的:它們不僅計(jì)算成本更低,訓(xùn)練和部署也更為便捷,可以滿足計(jì)算資源受限、數(shù)據(jù)安全級(jí)別較高的各類場(chǎng)景。因此,在大筆投入大模型訓(xùn)練之余,像 OpenAI、谷歌等科技巨頭也在積極訓(xùn)練好用的小模型。先是HuggingFace推出了小模型SmoLLM;OpenAI直接殺入小模型戰(zhàn)場(chǎng),發(fā)布了GPT-4o mini。GPT-4o mi...
閱讀 177·2024-11-07 17:59
閱讀 225·2024-09-27 16:59
閱讀 357·2024-09-23 10:37
閱讀 403·2024-09-14 16:58
閱讀 267·2024-09-14 16:58
閱讀 371·2024-08-29 18:47
閱讀 603·2024-08-16 14:40
閱讀 323·2024-08-14 17:54