繼前幾日推出完開源大模型Llama 3.1后,就在剛剛,Meta在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 來了。在其前身的基礎(chǔ)上,SAM 2 的誕生代表了領(lǐng)域內(nèi)的一次重大進(jìn)步 —— 為靜態(tài)圖像和動(dòng)態(tài)視頻內(nèi)容提供實(shí)時(shí)、可提示的對象分割,將圖像和視頻分割功能統(tǒng)一到一個(gè)強(qiáng)大的系統(tǒng)中。
SAM 2可以快速、精確地在任何視頻或圖像中選擇對象。它不僅能在圖像中分割對象,還能在視頻中追蹤對象,即使這些對象在訓(xùn)練時(shí)從未見過。該模型支持實(shí)時(shí)互動(dòng),非常適合各種實(shí)際應(yīng)用,比如視頻編輯和互動(dòng)式媒體內(nèi)容制作。
SAM2的核心優(yōu)勢在于其快速精準(zhǔn)的對象分割能力,無論是靜態(tài)圖像還是動(dòng)態(tài)視頻,它都能輕松應(yīng)對。這一模型不僅能夠識別和分割圖像中的單一對象,還能在視頻流中實(shí)時(shí)追蹤對象,即便這些對象在訓(xùn)練階段未曾出現(xiàn)過。SAM2的實(shí)時(shí)互動(dòng)特性,使其在視頻編輯和互動(dòng)媒體內(nèi)容制作等領(lǐng)域具有廣泛的應(yīng)用前景。
它采用了統(tǒng)一的架構(gòu)設(shè)計(jì),無需針對圖像和視頻分別訓(xùn)練,就能同時(shí)處理兩種類型的分割任務(wù)。這種設(shè)計(jì)大大提高了模型的通用性和效率,為各種視覺應(yīng)用場景提供了強(qiáng)大支持。
與 SAM 一樣,SAM 2 也會(huì)開源并免費(fèi)使用,并在 Amazon SageMaker 等平臺(tái)上托管。為了履行對開源 AI 的承諾,Meta 使用寬松的 Apache 2.0 協(xié)議共享代碼和模型權(quán)重,并根據(jù) BSD-3 許可分享 SAM 2 評估代碼。
正如扎克伯格上周在一封公開信中指出的那樣,開源人工智能比任何其他現(xiàn)代技術(shù)都更具有潛力,可以提高人類的生產(chǎn)力、創(chuàng)造力和生活質(zhì)量,同時(shí)還能加速經(jīng)濟(jì)增長并推動(dòng)突破性的醫(yī)學(xué)和科學(xué)研究。人工智能社區(qū)利用 SAM 取得的進(jìn)展給我們留下了深刻的印象, SAM 2 必將釋放更多令人興奮的可能性。
而SAM 2 前腳剛上線,大家就迫不及待的用起來了:「在 Meta 未提供的測試視頻上試用 SAM 2。效果好得令人瞠目結(jié)舌。」
同時(shí)還有網(wǎng)友認(rèn)為,SAM 2 的出現(xiàn)可能會(huì)使其他相關(guān)技術(shù)黯然失色。
SAM 能夠了解圖像中對象的一般概念。然而,圖像只是動(dòng)態(tài)現(xiàn)實(shí)世界的靜態(tài)快照。許多重要的現(xiàn)實(shí)用例需要在視頻數(shù)據(jù)中進(jìn)行準(zhǔn)確的對象分割,例如混合現(xiàn)實(shí)、機(jī)器人、自動(dòng)駕駛車輛和視頻編輯。Meta 認(rèn)為通用的分割模型應(yīng)該適用于圖像和視頻。
圖像可以被視為具有單幀的非常短的視頻。Meta 基于這個(gè)觀點(diǎn)開發(fā)了一個(gè)統(tǒng)一的模型,無縫支持圖像和視頻輸入。處理視頻的唯一區(qū)別是,模型需要依靠內(nèi)存來調(diào)用該視頻之前處理的信息,以便在當(dāng)前時(shí)間步準(zhǔn)確地分割對象。
視頻中對象的成功分割需要了解實(shí)體在空間和時(shí)間上的位置。與圖像分割相比,視頻提出了重大的新挑戰(zhàn)。對象運(yùn)動(dòng)、變形、遮擋、光照變化和其他因素可能會(huì)因幀而異。由于攝像機(jī)運(yùn)動(dòng)、模糊和分辨率較低,視頻的質(zhì)量通常低于圖像,這增加了難度。因此,現(xiàn)有的視頻分割模型和數(shù)據(jù)集在為視頻提供可比的「分割任何內(nèi)容」功能方面存在不足。
Meta 構(gòu)建 SAM 2 和新 SA-V 數(shù)據(jù)集來解決這些挑戰(zhàn)。
與用于 SAM 的方法類似,Meta 對視頻分割功能的研究涉及設(shè)計(jì)新任務(wù)、模型和數(shù)據(jù)集。
然后,研究團(tuán)隊(duì)使用 SAM 2 來幫助創(chuàng)建視頻對象分割數(shù)據(jù)集 ——SA-V,該數(shù)據(jù)集比當(dāng)前存在的任何數(shù)據(jù)集大一個(gè)數(shù)量級。研究團(tuán)隊(duì)使用它來訓(xùn)練 SAM 2 以實(shí)現(xiàn) SOTA 性能。
研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)可提示的視覺分割任務(wù),將圖像分割任務(wù)推廣到視頻領(lǐng)域。SAM 經(jīng)過訓(xùn)練,可以將圖像中的點(diǎn)、框或蒙版作為輸入,以定義目標(biāo)對象并預(yù)測分割蒙版。
借助 SAM 2,我們訓(xùn)練它接受視頻任意幀中的輸入提示,以定義要預(yù)測的時(shí)空蒙版(即“蒙版小片”)。
SAM 2 根據(jù)輸入提示立即預(yù)測當(dāng)前幀上的蒙版,并將其在時(shí)間上傳播以生成所有視頻幀中的目標(biāo)對象的蒙版小片。一旦預(yù)測了初始蒙版小片,就可以通過在任意幀中向 SAM 2 提供額外提示來迭代細(xì)化它。這可以根據(jù)需要重復(fù)多次,直到獲得所需的蒙版小片。
為了收集一個(gè)大型且多樣化的視頻分割數(shù)據(jù)集,Meta 建立了一個(gè)數(shù)據(jù)引擎,其中注釋員使用 SAM 2 交互地在視頻中注釋 masklet,然后將新注釋的數(shù)據(jù)用于更新 SAM 2。他們多次重復(fù)這一循環(huán),以迭代地改進(jìn)模型和數(shù)據(jù)集。與 SAM 類似,Meta 不對注釋的 masklet 施加語義約束,注重的是完整的物體(如人)和物體的部分(如人的帽子)。
借助 SAM 2,收集新的視頻對象分割掩碼比以往更快,比每幀使用 SAM 快約 8.4 倍。此外,Meta 發(fā)布的 SA-V 數(shù)據(jù)集的注釋數(shù)量是現(xiàn)有視頻對象分割數(shù)據(jù)集的十倍以上,視頻數(shù)量大約是其 4.5 倍。
總結(jié)而言,SA-V 數(shù)據(jù)集的亮點(diǎn)包括:
在大約 51,000 個(gè)視頻中有超過 600,000 個(gè) masklet 注釋;
視頻展示了地理上不同的真實(shí)場景,收集自 47 個(gè)國家;
覆蓋整個(gè)對象、對象中的一部分,以及在物體被遮擋、消失和重新出現(xiàn)的情況下具有挑戰(zhàn)性的實(shí)例。
雖然 SAM 2 在分割圖像和短視頻中的對象方面表現(xiàn)出色,但仍然會(huì)遇到諸多挑戰(zhàn)。
SAM 2 可能會(huì)在攝像機(jī)視角發(fā)生劇烈變化、長時(shí)間遮擋、擁擠的場景或較長的視頻中失去對對象的追蹤。
在實(shí)際應(yīng)用中,Meta 設(shè)計(jì)了交互式模型來緩解這一問題,并通過在任意幀中點(diǎn)擊校正來實(shí)現(xiàn)人工干預(yù),從而恢復(fù)目標(biāo)對象。
當(dāng)目標(biāo)對象只在一幀中指定時(shí),SAM 2 有時(shí)會(huì)混淆對象,無法正確分割目標(biāo),如上述的馬匹所示。在許多情況下,通過在未來幀中進(jìn)行額外的細(xì)化提示,這一問題可以完全解決,并在整個(gè)視頻中獲得正確的 masklet。
雖然 SAM 2 支持同時(shí)分割多個(gè)多帶帶對象的功能,但模型的效率卻大大降低。實(shí)際上,SAM 2 對每個(gè)對象進(jìn)行多帶帶處理,只利用共享的每幀嵌入,不進(jìn)行對象間通信。雖然這簡化了模型,但納入共享的對象級上下文信息有助于提高效率。
在同一幀或其他幀中添加進(jìn)一步的提示來優(yōu)化預(yù)測只能部分緩解此問題。在訓(xùn)練過程中,如果模型預(yù)測在幀間抖動(dòng),不會(huì)對其進(jìn)行任何懲罰,因此無法保證時(shí)間上的平滑性。提高這種能力可以促進(jìn)需要對精細(xì)結(jié)構(gòu)進(jìn)行詳細(xì)定位的實(shí)際應(yīng)用。
雖然 Meta 的數(shù)據(jù)引擎在循環(huán)中使用了 SAM 2,且在自動(dòng) masklet 生成方面也取得了長足進(jìn)步,但仍然依賴人工注釋來完成一些步驟,例如驗(yàn)證 masklet 質(zhì)量和選擇需要校正的幀。
因此,未來的發(fā)展需要進(jìn)一步自動(dòng)化這個(gè)數(shù)據(jù)注釋過程,以提高效率。要推動(dòng)這項(xiàng)研究,還有很多工作要做。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/131142.html
隨著大型模型技術(shù)的持續(xù)發(fā)展,視頻生成技術(shù)正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術(shù),正在重新定義行業(yè)的未來格局。而近幾個(gè)月,國產(chǎn)的AI視頻生成模型也是層出不窮,像是快手可靈、字節(jié)即夢、智譜清影、Vidu、PixVerse V2 等。就在近日,智譜AI秉承以先進(jìn)技術(shù),服務(wù)全球開發(fā)者的理念,宣布將與清影同源的視頻生成模型——CogVideoX開源,以期讓每一位開發(fā)者、每一家企...
摘要:部署旨在幫助開發(fā)人員和研究人員訓(xùn)練大規(guī)模機(jī)器學(xué)習(xí)模型,并在移動(dòng)應(yīng)用中提供驅(qū)動(dòng)的用戶體驗(yàn)?,F(xiàn)在,開發(fā)人員可以獲取許多相同的工具,能夠在大規(guī)模分布式場景訓(xùn)練模型,并為移動(dòng)設(shè)備創(chuàng)建機(jī)器學(xué)習(xí)應(yīng)用。 AI 模型的訓(xùn)練和部署通常與大量數(shù)據(jù)中心或超級計(jì)算機(jī)相關(guān)聯(lián),原因很簡單。從大規(guī)模的圖像、視頻、文本和語音等各種信息中持續(xù)處理、創(chuàng)建和改進(jìn)模型的能力不是小型計(jì)算擅長的。在移動(dòng)設(shè)備上部署這些模型,使其快速輕量...
摘要:在本次競賽中,南京信息工程大學(xué)和帝國理工學(xué)院的團(tuán)隊(duì)獲得了目標(biāo)檢測的最優(yōu)成績,最優(yōu)檢測目標(biāo)數(shù)量為平均較精確率為。最后在視頻目標(biāo)檢測任務(wù)中,帝國理工大學(xué)和悉尼大學(xué)所組成的團(tuán)隊(duì)取得了較佳表現(xiàn)。 在本次 ImageNet 競賽中,南京信息工程大學(xué)和帝國理工學(xué)院的團(tuán)隊(duì) BDAT 獲得了目標(biāo)檢測的最優(yōu)成績,最優(yōu)檢測目標(biāo)數(shù)量為 85、平均較精確率為 0.732227。而在目標(biāo)定位任務(wù)中Momenta和牛津...
閱讀 177·2024-11-07 17:59
閱讀 225·2024-09-27 16:59
閱讀 357·2024-09-23 10:37
閱讀 403·2024-09-14 16:58
閱讀 267·2024-09-14 16:58
閱讀 371·2024-08-29 18:47
閱讀 603·2024-08-16 14:40
閱讀 323·2024-08-14 17:54