AI圖像生成迎來新霸主:開源模型FLUX.1橫空出世，文生圖模型殺出大黑馬

UCloud小助手發(fā)布于2024-08-02 17:47 / 614人閱讀

在人工智能領(lǐng)域，每一天都可能發(fā)生顛覆性的變革。就在Midjourney剛剛進(jìn)行大更新的第二天，開源圖像生成領(lǐng)域就迎來了一匹令人矚目的黑馬——FLUX.1。這個(gè)突如其來的新玩家不僅在性能上聲稱大幅超越了DALL·E3、Midjourney V6等閉源模型，還將開源的SD3系列全線秒殺，瞬間引爆了AI圈。

出道即巔峰專找最硬的打，有點(diǎn)喬峰橫掃聚賢莊的意思。原來剛成立的FLUX.1的創(chuàng)始人是大名鼎鼎的Robin Rombach。Robin是擴(kuò)散模型領(lǐng)域的權(quán)威之一，其代表作有VQGAN、Taming Transformers和Latent Diffusion。

后來，Stability AI收購了Robin的Latent Diffusion模型，并聘請(qǐng)他成為首席科學(xué)家，期間他領(lǐng)導(dǎo)了全球著名文生圖開源項(xiàng)目Stable Diffusion系列，這也是全球下載最多、使用最廣的開源大模型之一。

今年3月，由于Stability AI內(nèi)部出現(xiàn)動(dòng)蕩，Robin選擇離開。經(jīng)過四個(gè)月的沉淀，他帶著新的開源大模型平臺(tái)FLUX.1重磅回歸。更令人驚訝的是，F(xiàn)LUX.1一亮相就獲得了由著名風(fēng)投機(jī)構(gòu)Andreessen Horowitz領(lǐng)投的3200萬美元種子輪融資。這無疑為FLUX.1的未來發(fā)展注入了強(qiáng)心劑。

那么，F(xiàn)LUX.1到底有什么過人之處?

擅長生成文字、人手三種模型規(guī)模秒級(jí)生成

FLUX.1在視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性等方面性能優(yōu)越，其具有三大特點(diǎn)：文字生成、復(fù)雜構(gòu)圖、人手描繪。文字的生成在圖像、視頻生成中非常重要，許多模型容易混淆看起來相似的字母。FLUX.1可以處理重復(fù)字母的棘手單詞，例如生成一個(gè)黑森林Flux Schnell蛋糕：

而在構(gòu)圖方面，F(xiàn)LUX.1則表現(xiàn)出來非常擅長遵循復(fù)雜的指令，確定圖像中事物的位置的能力。

例如，F(xiàn)LUX.1完美地演繹了這段提示詞：三個(gè)魔法巫師站在一張黃色桌子上，每個(gè)巫師都拿著一個(gè)標(biāo)志。左邊，一個(gè)穿著黑色長袍的巫師拿著一個(gè)寫著“AI”的標(biāo)志；中間，一個(gè)穿著紅色長袍的女巫拿著一個(gè)寫著“is”的標(biāo)志；在右邊，一個(gè)穿著藍(lán)色長袍的巫師拿著一個(gè)寫著“cool”的標(biāo)志。

人手一直是多模態(tài)生成模型的重災(zāi)區(qū)。FLUX.1生成的人手圖像雖然還稱不上是完美，但實(shí)現(xiàn)了很大的進(jìn)步。

FLUX.1共有專業(yè)版、開發(fā)者版、快速版三種版本。

其中，FLUX.1[pro]是最先進(jìn)的一個(gè)版本，具有頂級(jí)的即時(shí)跟蹤、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性，面向?qū)I(yè)用戶提供定制的企業(yè)解決方案。

FLUX.1[dev]面向非商業(yè)應(yīng)用，它從FLUX.1[pro]提煉而來，具有相似的質(zhì)量和能力，同時(shí)比相同尺寸的標(biāo)準(zhǔn)模型更高效。

FLUX.1[schnell]是三款模型中最快的，專為本地開發(fā)和個(gè)人使用而定制，并根據(jù)Apache 2.0標(biāo)準(zhǔn)許可公開提供。

擊敗MJ V6、DALL·E 3，技術(shù)報(bào)告即將發(fā)布

性能方面，F(xiàn)LUX.1經(jīng)過特別微調(diào)，在預(yù)訓(xùn)練中保留了整個(gè)輸出多樣性，在指令遵守、視覺質(zhì)量、尺寸/長寬變化等多個(gè)方面樹立了新標(biāo)準(zhǔn)。

其中FLUX.1[pro]和[dev]兩款模型，在5項(xiàng)測(cè)評(píng)標(biāo)準(zhǔn)中都超過了Midjourney v6.0、DALL·E 3和SD3-Ultra等熱門模型。 FLUX.1[schnell]作為輕量級(jí)模型，不僅優(yōu)于同類競(jìng)爭(zhēng)對(duì)手，還優(yōu)于Midjourney v6.0、DALL·E 3等強(qiáng)大的非蒸餾模型。

此外，所有FLUX.1模型均支持0.1和2.0百萬像素的多種寬高比和分辨率。以下是一些實(shí)例作品：

而如此強(qiáng)大的性能是怎么做到的？

在模型架構(gòu)上，F(xiàn)LUX.1采用基于多模態(tài)和并行擴(kuò)散Transformer模塊的混合架構(gòu)，并將其擴(kuò)展到12B參數(shù)。

團(tuán)隊(duì)通過建立流匹配（Flow Matching）來改進(jìn)最先進(jìn)的擴(kuò)散模型，并通過結(jié)合旋轉(zhuǎn)位置嵌入（Rotary Position Embedding）和并行注意力層，來提高模型性能和硬件效率。

根據(jù)FLUX.1團(tuán)隊(duì)的測(cè)試數(shù)據(jù)，即便是開源的Schnell版本，在文本語義還原、圖片質(zhì)量、動(dòng)作一致性、連貫性和多樣性等方面，也超越了Midjourney v6.0、DALL·E3（HD）和SD3-Ultra等主流模型。特別是在文本嵌入圖片方面，F(xiàn)LUX.1展現(xiàn)出了明顯的優(yōu)勢(shì)。

SD原班人馬，即將發(fā)布SOTA視頻模型

Flux.1由Stable Diffusion的創(chuàng)始團(tuán)隊(duì)成立，該團(tuán)隊(duì)此前的工作還包括高質(zhì)量圖像生成模型VQGAN、視頻生成模型Stable Video Diffusion等。

Stable Diffusion最初的5位作者中，4位曾加入Stability AI并持續(xù)開發(fā)SD后續(xù)版本的成員，包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser，都在該項(xiàng)目創(chuàng)始團(tuán)隊(duì)中。

該團(tuán)隊(duì)稱，其核心信念是開發(fā)廣泛可訪問的模型，促進(jìn)研究界和學(xué)術(shù)界的創(chuàng)新和協(xié)作，并提高模型透明度。在下一步的工作上，工作室預(yù)告將發(fā)布一款SOTA文生視頻模型，“讓所有人都能將文本轉(zhuǎn)為視頻”。該模型將建立在FLUX.1的基礎(chǔ)上，“以高清和前所未有的速度實(shí)現(xiàn)精確創(chuàng)作和編輯”。

結(jié)語：多模態(tài)大模型領(lǐng)域值得關(guān)注的黑馬

在眾多大廠、創(chuàng)企狂卷文生視頻之際，文生圖領(lǐng)域突然迎來黑馬。

“橫空出世”的FLUX.1的不僅展現(xiàn)出卓越的性能，在文字生成、復(fù)雜構(gòu)圖、人手描繪等方面突破難關(guān)，還以多樣化的版本滿足不同用戶的需求。

對(duì)于開發(fā)者和AI愛好者來說，F(xiàn)LUX.1的出現(xiàn)無疑是一個(gè)重大利好。Schnell版本已經(jīng)完全開源，并獲得了Comfyui的支持。

如果你有36G以上的顯存，甚至可以運(yùn)行t5的fp16版本。FLUX.1的橫空出世，不僅為開源AI圖像生成領(lǐng)域帶來了新的希望，也為整個(gè)AI行業(yè)注入了新的活力。它的強(qiáng)大性能和開源特性，很可能會(huì)加速AI圖像生成技術(shù)的普及和創(chuàng)新。對(duì)于普通用戶來說，這意味著我們可能很快就能在家用電腦上運(yùn)行媲美甚至超越Midjourney的AI圖像生成模型。

GPU算力平臺(tái) GPU云服務(wù)器模型圖 python 圖模型 java類模型圖圖像識(shí)別模型訓(xùn)練

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址：http://systransis.cn/yun/131145.html

發(fā)表評(píng)論

登陸后可評(píng)論

0條評(píng)論

UCloud小助手

男|高級(jí)講師

我要關(guān)注我要私信

TA的文章

服務(wù)器常用端口大全

閱讀 177·2024-11-07 17:59
又來!OpenAI 宮斗大戲曝光,首席技術(shù)官M(fèi)ira 離職

閱讀 225·2024-09-27 16:59
2.4K star的GOT-OCR2.0：端到端OCR 模型

閱讀 357·2024-09-23 10:37
Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

閱讀 403·2024-09-14 16:58
Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

閱讀 267·2024-09-14 16:58
網(wǎng)頁開發(fā)助手——自動(dòng)編寫運(yùn)行代碼

閱讀 371·2024-08-29 18:47
一直爆料OpenAI「草莓」的賬號(hào)，竟然是個(gè)智能體？Agent Q橫空出世，AI界新秀or營銷大師

閱讀 603·2024-08-16 14:40
傳媒人必備：不花錢的AI開源視頻神助攻

閱讀 323·2024-08-14 17:54

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

AI圖像生成迎來新霸主:開源模型FLUX.1橫空出世，文生圖模型殺出大黑馬

擅長生成文字、人手三種模型規(guī)模秒級(jí)生成

擊敗MJ V6、DALL·E 3，技術(shù)報(bào)告即將發(fā)布

SD原班人馬，即將發(fā)布SOTA視頻模型

結(jié)語：多模態(tài)大模型領(lǐng)域值得關(guān)注的黑馬

相關(guān)文章

智譜AI最新GLM-4-Plus上線開放平臺(tái)！可視頻通話

傳媒人必備：不花錢的AI開源視頻神助攻

ICCV 2021 口罩人物身份鑒別全球挑戰(zhàn)賽冠軍方案分享

深度學(xué)習(xí)在人臉識(shí)別中的應(yīng)用 —— 優(yōu)圖祖母模型的「進(jìn)化」

發(fā)表評(píng)論

0條評(píng)論

UCloud小助手

男|高級(jí)講師

TA的文章

服務(wù)器常用端口大全

又來!OpenAI 宮斗大戲曝光,首席技術(shù)官M(fèi)ira 離職

2.4K star的GOT-OCR2.0：端到端OCR 模型

Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

網(wǎng)頁開發(fā)助手——自動(dòng)編寫運(yùn)行代碼

一直爆料OpenAI「草莓」的賬號(hào)，竟然是個(gè)智能體？Agent Q橫空出世，AI界新秀or營銷大師

傳媒人必備：不花錢的AI開源視頻神助攻

最新活動(dòng)

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

AI圖像生成迎來新霸主:開源模型FLUX.1橫空出世，文生圖模型殺出大黑馬

擅長生成文字、人手三種模型規(guī)模秒級(jí)生成

擊敗MJ V6、DALL·E 3，技術(shù)報(bào)告即將發(fā)布

SD原班人馬，即將發(fā)布SOTA視頻模型

結(jié)語：多模態(tài)大模型領(lǐng)域值得關(guān)注的黑馬

相關(guān)文章

發(fā)表評(píng)論

0條評(píng)論

男|高級(jí)講師

TA的文章

最新活動(dòng)

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

AI圖像生成迎來新霸主:開源模型FLUX.1橫空出世，文生圖模型殺出大黑馬

擅長生成文字、人手三種模型規(guī)模秒級(jí)生成

擊敗MJ V6、DALL·E 3，技術(shù)報(bào)告即將發(fā)布