成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

AI圖像生成迎來新霸主:開源模型FLUX.1橫空出世,文生圖模型殺出大黑馬

UCloud小助手 / 614人閱讀

在人工智能領(lǐng)域,每一天都可能發(fā)生顛覆性的變革。就在Midjourney剛剛進(jìn)行大更新的第二天,開源圖像生成領(lǐng)域就迎來了一匹令人矚目的黑馬——FLUX.1。這個(gè)突如其來的新玩家不僅在性能上聲稱大幅超越了DALL·E3、Midjourney V6等閉源模型,還將開源的SD3系列全線秒殺,瞬間引爆了AI圈。

出道即巔峰專找最硬的打,有點(diǎn)喬峰橫掃聚賢莊的意思。原來剛成立的FLUX.1的創(chuàng)始人是大名鼎鼎的Robin Rombach。Robin是擴(kuò)散模型領(lǐng)域的權(quán)威之一,其代表作有VQGAN、Taming TransformersLatent Diffusion。

后來,Stability AI收購了Robin的Latent Diffusion模型,并聘請(qǐng)他成為首席科學(xué)家,期間他領(lǐng)導(dǎo)了全球著名文生圖開源項(xiàng)目Stable Diffusion系列,這也是全球下載最多、使用最廣的開源大模型之一。

今年3月,由于Stability AI內(nèi)部出現(xiàn)動(dòng)蕩,Robin選擇離開。經(jīng)過四個(gè)月的沉淀,他帶著新的開源大模型平臺(tái)FLUX.1重磅回歸。更令人驚訝的是,F(xiàn)LUX.1一亮相就獲得了由著名風(fēng)投機(jī)構(gòu)Andreessen Horowitz領(lǐng)投的3200萬美元種子輪融資。這無疑為FLUX.1的未來發(fā)展注入了強(qiáng)心劑。

那么,F(xiàn)LUX.1到底有什么過人之處?

擅長生成文字、人手三種模型規(guī)模秒級(jí)生成

FLUX.1在視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性等方面性能優(yōu)越,其具有三大特點(diǎn):文字生成、復(fù)雜構(gòu)圖、人手描繪。 文字的生成在圖像、視頻生成中非常重要,許多模型容易混淆看起來相似的字母。FLUX.1可以處理重復(fù)字母的棘手單詞,例如生成一個(gè)黑森林Flux Schnell蛋糕:

而在構(gòu)圖方面,F(xiàn)LUX.1則表現(xiàn)出來非常擅長遵循復(fù)雜的指令,確定圖像中事物的位置的能力。

例如,F(xiàn)LUX.1完美地演繹了這段提示詞:三個(gè)魔法巫師站在一張黃色桌子上,每個(gè)巫師都拿著一個(gè)標(biāo)志。左邊,一個(gè)穿著黑色長袍的巫師拿著一個(gè)寫著“AI”的標(biāo)志;中間,一個(gè)穿著紅色長袍的女巫拿著一個(gè)寫著“is”的標(biāo)志;在右邊,一個(gè)穿著藍(lán)色長袍的巫師拿著一個(gè)寫著“cool”的標(biāo)志。

人手一直是多模態(tài)生成模型的重災(zāi)區(qū)。FLUX.1生成的人手圖像雖然還稱不上是完美,但實(shí)現(xiàn)了很大的進(jìn)步。

FLUX.1共有專業(yè)版、開發(fā)者版、快速版三種版本。

其中,FLUX.1[pro]是最先進(jìn)的一個(gè)版本,具有頂級(jí)的即時(shí)跟蹤、視覺質(zhì)量、圖像細(xì)節(jié)和輸出多樣性,面向?qū)I(yè)用戶提供定制的企業(yè)解決方案。

FLUX.1[dev]面向非商業(yè)應(yīng)用,它從FLUX.1[pro]提煉而來,具有相似的質(zhì)量和能力,同時(shí)比相同尺寸的標(biāo)準(zhǔn)模型更高效。

FLUX.1[schnell]是三款模型中最快的,專為本地開發(fā)和個(gè)人使用而定制,并根據(jù)Apache 2.0標(biāo)準(zhǔn)許可公開提供。

擊敗MJ V6、DALL·E 3,技術(shù)報(bào)告即將發(fā)布

性能方面,F(xiàn)LUX.1經(jīng)過特別微調(diào),在預(yù)訓(xùn)練中保留了整個(gè)輸出多樣性,在指令遵守、視覺質(zhì)量、尺寸/長寬變化等多個(gè)方面樹立了新標(biāo)準(zhǔn)。

其中FLUX.1[pro]和[dev]兩款模型,在5項(xiàng)測(cè)評(píng)標(biāo)準(zhǔn)中都超過了Midjourney v6.0、DALL·E 3和SD3-Ultra等熱門模型。 FLUX.1[schnell]作為輕量級(jí)模型,不僅優(yōu)于同類競(jìng)爭(zhēng)對(duì)手,還優(yōu)于Midjourney v6.0、DALL·E 3等強(qiáng)大的非蒸餾模型。

此外,所有FLUX.1模型均支持0.1和2.0百萬像素的多種寬高比和分辨率。以下是一些實(shí)例作品:

而如此強(qiáng)大的性能是怎么做到的?

在模型架構(gòu)上,F(xiàn)LUX.1采用基于多模態(tài)和并行擴(kuò)散Transformer模塊的混合架構(gòu),并將其擴(kuò)展到12B參數(shù)。

團(tuán)隊(duì)通過建立流匹配(Flow Matching)來改進(jìn)最先進(jìn)的擴(kuò)散模型,并通過結(jié)合旋轉(zhuǎn)位置嵌入(Rotary Position Embedding)和并行注意力層,來提高模型性能和硬件效率。

根據(jù)FLUX.1團(tuán)隊(duì)的測(cè)試數(shù)據(jù),即便是開源的Schnell版本,在文本語義還原、圖片質(zhì)量、動(dòng)作一致性、連貫性和多樣性等方面,也超越了Midjourney v6.0、DALL·E3(HD)和SD3-Ultra等主流模型。特別是在文本嵌入圖片方面,F(xiàn)LUX.1展現(xiàn)出了明顯的優(yōu)勢(shì)。

SD原班人馬,即將發(fā)布SOTA視頻模型

Flux.1由Stable Diffusion的創(chuàng)始團(tuán)隊(duì)成立,該團(tuán)隊(duì)此前的工作還包括高質(zhì)量圖像生成模型VQGAN、視頻生成模型Stable Video Diffusion等。

Stable Diffusion最初的5位作者中,4位曾加入Stability AI并持續(xù)開發(fā)SD后續(xù)版本的成員,包括Robin Rombach、Andreas Blattmann、Dominik Lorenz以及Patrick Esser,都在該項(xiàng)目創(chuàng)始團(tuán)隊(duì)中。

該團(tuán)隊(duì)稱,其核心信念是開發(fā)廣泛可訪問的模型,促進(jìn)研究界和學(xué)術(shù)界的創(chuàng)新和協(xié)作,并提高模型透明度。 在下一步的工作上,工作室預(yù)告將發(fā)布一款SOTA文生視頻模型,“讓所有人都能將文本轉(zhuǎn)為視頻”。該模型將建立在FLUX.1的基礎(chǔ)上,“以高清和前所未有的速度實(shí)現(xiàn)精確創(chuàng)作和編輯”。

結(jié)語:多模態(tài)大模型領(lǐng)域值得關(guān)注的黑馬

在眾多大廠、創(chuàng)企狂卷文生視頻之際,文生圖領(lǐng)域突然迎來黑馬。

“橫空出世”的FLUX.1的不僅展現(xiàn)出卓越的性能,在文字生成、復(fù)雜構(gòu)圖、人手描繪等方面突破難關(guān),還以多樣化的版本滿足不同用戶的需求。

對(duì)于開發(fā)者和AI愛好者來說,F(xiàn)LUX.1的出現(xiàn)無疑是一個(gè)重大利好。Schnell版本已經(jīng)完全開源,并獲得了Comfyui的支持。

如果你有36G以上的顯存,甚至可以運(yùn)行t5的fp16版本。FLUX.1的橫空出世,不僅為開源AI圖像生成領(lǐng)域帶來了新的希望,也為整個(gè)AI行業(yè)注入了新的活力。它的強(qiáng)大性能和開源特性,很可能會(huì)加速AI圖像生成技術(shù)的普及和創(chuàng)新。對(duì)于普通用戶來說,這意味著我們可能很快就能在家用電腦上運(yùn)行媲美甚至超越Midjourney的AI圖像生成模型。


文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/131145.html

相關(guān)文章

  • 智譜AIGLM-4-Plus上線開放平臺(tái)!可視頻通話

    GLM-4-Plus是智譜AI最新推出的旗艦級(jí)預(yù)訓(xùn)練語言模型,標(biāo)志著公司在人工智能技術(shù)上取得了重大突破。相比前一代GLM-3模型,GLM-4-Plus在多個(gè)關(guān)鍵指標(biāo)上實(shí)現(xiàn)了大幅提升,尤其是在語言理解能力、指令遵循能力和長文本處理能力方面。這些進(jìn)步使得GLM-4-Plus在各類自然語言處理任務(wù)中的表現(xiàn)更加出色。主要更新語言基座模型 GLM-4-Plus:在語言理解、指令遵循、長文本處理等方面性能得到...

    miguel.jiang 評(píng)論0 收藏0
  • 傳媒人必備:不花錢的AI開源視頻神助攻

    前幾個(gè)月OpenAI大名鼎鼎的Sora 一經(jīng)發(fā)布,似乎象征著視頻領(lǐng)域已經(jīng)進(jìn)入了生成式 AI 時(shí)代。不過直到今天,我們?nèi)匀粵]有用上OpenAI 的官方視頻生成工具,等不及的人們已經(jīng)開始尋找其他的方法。其中不乏一些國內(nèi)的廠商如快手的可靈等等。而在近日,一款全新的開源視頻編輯工具 Clapper 引發(fā)了人們的關(guān)注。與其他的文生視頻或者文生視頻工具不同,這款工具的設(shè)計(jì)目的并非取代傳統(tǒng)視頻編輯器,或使用 3...

    UCloud小助手 評(píng)論0 收藏0
  • ICCV 2021 口罩人物身份鑒別全球挑戰(zhàn)賽冠軍方案分享

    摘要:損失函數(shù)此次競(jìng)賽我們采用的基線損失函數(shù)為,該損失函數(shù)在訓(xùn)練過程中模擬課程學(xué)習(xí)的思想,按照樣本從易到難的順序進(jìn)行訓(xùn)練。 1. 引言10月11-17日,萬眾期待的國際計(jì)算機(jī)視覺大會(huì) ICCV 2021 (International Conference on Computer Vision) 在線上如期舉行,受到全...

    nidaye 評(píng)論0 收藏0
  • 深度學(xué)習(xí)在人臉識(shí)別中的應(yīng)用 —— 優(yōu)祖母模型的「進(jìn)化」

    摘要:本文著重以人臉識(shí)別為例介紹深度學(xué)習(xí)技術(shù)在其中的應(yīng)用,以及優(yōu)圖團(tuán)隊(duì)經(jīng)過近五年的積累對(duì)人臉識(shí)別技術(shù)乃至整個(gè)人工智能領(lǐng)域的一些認(rèn)識(shí)和分享。從年左右,受深度學(xué)習(xí)在整個(gè)機(jī)器視覺領(lǐng)域迅猛發(fā)展的影響,人臉識(shí)別的深時(shí)代正式拉開序幕。 騰訊優(yōu)圖隸屬于騰訊社交網(wǎng)絡(luò)事業(yè)群(SNG),團(tuán)隊(duì)整體立足于騰訊社交網(wǎng)絡(luò)大平臺(tái),專注于圖像處理、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、深度學(xué)習(xí)、音頻語音分析等領(lǐng)域開展技術(shù)研發(fā)和業(yè)務(wù)落地。...

    546669204 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<