成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

Twelve Labs:專注視頻理解,像人類一樣理解視頻內(nèi)容

UCloud小助手 / 361人閱讀

在當(dāng)今數(shù)字化世界中,視頻已成為人們獲取信息和娛樂的主要方式之一。AI視頻生成領(lǐng)域的競爭也很激烈,Pika、Sora、Luma AI以及國內(nèi)的可靈等,多模態(tài)、視頻生成甚至也被視為大模型發(fā)展的某種必經(jīng)之路。然而與文本生成相比,視頻生成模型場景似乎更遠(yuǎn),Sora在二月份引起了重大關(guān)注但是至今還沒有面向公眾開放試用。

今天要介紹的Twelve Labs是一家標(biāo)志性的企業(yè),它憑借其先進(jìn)的技術(shù),致力于打造多模態(tài)視頻搜索引擎,為用戶提供更智能、更高效的視頻搜索體驗(yàn)。

                                                     產(chǎn)品介紹

Twelve Labs的目標(biāo)是,讓視頻的處理和搜索變得和文本一樣容易。
主要觀點(diǎn)
場景式視頻內(nèi)容理解是主流:增加視頻數(shù)據(jù)和高質(zhì)量視頻內(nèi)容是未來 AIGC 在媒體和娛樂領(lǐng)域規(guī)?;捎玫幕A(chǔ),場景式理解視頻內(nèi)容 (Context Understanding of Video) 將會(huì)成為技術(shù)主流。視頻內(nèi)容處理可以細(xì)化到每一個(gè)瞬間,大大提高了視頻內(nèi)容在不同社交平臺(tái)的傳播效率。
AI原生產(chǎn)品的絲滑體驗(yàn)感:自動(dòng)化視頻數(shù)據(jù)標(biāo)注和數(shù)據(jù)生成可以極大的降低成本,把勞動(dòng)力從重復(fù)性的工作中解放出來。Twelve Labs 把標(biāo)注,搜索和生成端到端的設(shè)計(jì)起來,創(chuàng)造了極優(yōu)的產(chǎn)品體驗(yàn)。
產(chǎn)品簡介:
Twelve Labs 是一個(gè)人工智能平臺(tái),幫助開發(fā)者創(chuàng)建視頻搜索和生成能力。該產(chǎn)品可在視頻中提取特定視頻瞬間,包括視覺、音頻、文本和上下文信息,以實(shí)現(xiàn)語義搜索、分析和洞察。該公司的愿景是創(chuàng)建用于多模式視頻理解的基礎(chǔ)設(shè)施,其自研模型可用于媒體分析并自動(dòng)生成精彩片段。目前已被從多個(gè)頂級(jí)風(fēng)投機(jī)構(gòu)投資。
產(chǎn)品功能
Twelve Labs的核心技術(shù)是開發(fā)多模態(tài)的AI大模型,能夠像人類一樣理解視頻內(nèi)容。它通過三個(gè)步驟自動(dòng)搜索,分類和生成來簡化用戶的工作流程,但其中包括了幾種主要的產(chǎn)品功能,只需通過對(duì)接 API 就可以使用:
1、視頻搜索
此模型分析視頻的語義內(nèi)容(Sematic search),包括視頻,音頻,Logo 等數(shù)字材料,文字等全面分析場景關(guān)聯(lián)性,以實(shí)現(xiàn)高效且準(zhǔn)確的特定視頻片段檢索,幫助用戶在無需觀看完整內(nèi)容的情況下精準(zhǔn)搜索到大量來自 Youtube, Tiktok,Reels 等視頻庫的材料。
傳統(tǒng)的視頻搜索主要都是基于標(biāo)題和特定標(biāo)簽信息來完成的,而 Twelve Labs 的產(chǎn)品可以根據(jù)對(duì)視頻包括音頻內(nèi)容的理解和用戶輸文字的語義來進(jìn)行定位。


2、視頻分類
如果你是一個(gè)視頻內(nèi)容平臺(tái)如抖音,數(shù)據(jù)庫里有海量的視頻資源,你有很多的用戶,但是每個(gè)用戶可能只對(duì)其中一類或者幾類視頻感興趣。那如何只推送用戶喜歡的內(nèi)容呢?
傳統(tǒng)的內(nèi)容推薦大多都是根據(jù)用戶的偏好設(shè)置和用戶行為數(shù)據(jù),根據(jù)視頻的標(biāo)題和標(biāo)簽進(jìn)行匹配來進(jìn)行的。這種推薦的結(jié)果一般初期效果比較差,并且?guī)в泻軓?qiáng)的不確定性。
這個(gè)基于AI大模型的分類功能除了能很好地完成個(gè)性化內(nèi)容推薦任務(wù),還可以做精準(zhǔn)廣告投放,公司內(nèi)部視頻資源的整理。它通過分析視頻中的語義特征、對(duì)象和動(dòng)作,將視頻自動(dòng)分類為預(yù)定義的類別,如體育、新聞、娛樂或紀(jì)錄片。這增強(qiáng)了內(nèi)容發(fā)現(xiàn)能力,并提供個(gè)性化推薦。同時(shí),此功能基于內(nèi)容相似性對(duì)視頻進(jìn)行分組,而不需要標(biāo)簽數(shù)據(jù)。它使用視頻嵌入來捕捉視覺和時(shí)間信息,便于測(cè)量相似性并將相似視頻進(jìn)行歸類。
3、視頻-語言建模
該功能集成文本描述和視頻內(nèi)容,使模型能夠理解并生成基于文本的摘要、描述或?qū)σ曨l內(nèi)容的響應(yīng)。它彌合了視覺和文本理解之間的差距。還可以在生成的視頻上自由修改和插入視頻內(nèi)容,有提供用戶利用細(xì)分賽道數(shù)據(jù)的微調(diào)模型的功能,例如客戶會(huì)需要微調(diào)「茄瓜沙律」為「雞胸肉沙律」。
Twelve Labs商業(yè)模式主要做ToB的業(yè)務(wù),比如視頻內(nèi)容提供商,媒體資產(chǎn)管理,執(zhí)法部門的數(shù)字證據(jù)管理等,目前已經(jīng)與Vidispine、EMAM、Blackbird等公司建立深度合作。
4、視頻描述和摘要
這個(gè)模型能夠生成自然語言的描述以及視頻的簡潔摘要,從而捕獲關(guān)鍵的信息和重要的時(shí)刻。在此基礎(chǔ)上,結(jié)合深度學(xué)習(xí)算法實(shí)現(xiàn)對(duì)語義內(nèi)容進(jìn)行理解分析,并以文本形式呈現(xiàn)給用戶。特別是對(duì)于那些有視覺問題或時(shí)間受限的用戶來說,這種方法增強(qiáng)了理解能力和參與度。
同時(shí),該系統(tǒng)提供一種基于語音識(shí)別技術(shù)的個(gè)性化視頻分享平臺(tái)。你還可以利用自定義的prompt工具來創(chuàng)建具有不同重點(diǎn)的長篇視頻總結(jié)、故事或自媒體文章等內(nèi)容。
產(chǎn)品優(yōu)勢(shì)
為了實(shí)現(xiàn)大規(guī)模莫場景式視頻理解搜索和生成,Twelve Labs 建立了兩個(gè)視頻語言大模型,奠定了極大的技術(shù)優(yōu)勢(shì):

  • Pegasus-1(800 億參數(shù))是 Twelve Labs 的視頻語言模型(Video-to-Text),通過「視頻優(yōu)先」策略確保卓越的視頻理解,具有高效的長視頻處理、多模態(tài)理解、原生視頻嵌入和深度視頻語言對(duì)齊的優(yōu)點(diǎn)。憑借 800 億參數(shù)并在 3 億視頻-文本對(duì)的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練,它顯著超越了之前的模型。在 MSR-VTT 數(shù)據(jù)集上顯示出 61% 的提升,在視頻描述數(shù)據(jù)集上提升了 47%。與 Whisper-ChatGPT 等 ASR+LLM 模型相比,Pegasus-1 的性能提升高達(dá) 188%,在視頻轉(zhuǎn)文本的準(zhǔn)確性和效率上設(shè)立了新標(biāo)準(zhǔn)。

  • Marengo-2.6 是一款最先進(jìn)的多模態(tài)基礎(chǔ)模型,擅長執(zhí)行文本到視頻、文本到圖像和文本到音頻等任意搜索任務(wù)。它在 MSR-VTT 數(shù)據(jù)集上比 Google 的 VideoPrism-G 高出 10%,在 ActivityNet 數(shù)據(jù)集上高出 3%。具備先進(jìn)的零樣本檢索能力,超越現(xiàn)有模型在理解和處理視覺內(nèi)容上的表現(xiàn)。其多功能性還包括跨模態(tài)任務(wù),如音頻到視頻和圖像到視頻。該模型通過重新排序模型實(shí)現(xiàn)了增強(qiáng)的時(shí)間定位,確保更精確的搜索結(jié)果,展示了在多種模態(tài)下令人印象深刻的感知推理能力。

小結(jié)
除了Twelve Labs之外,谷歌以及微軟和亞馬遜也推出了能夠提供 API 級(jí)、人工智能驅(qū)動(dòng)的服務(wù)的產(chǎn)品,這些服務(wù)可以識(shí)別視頻中的對(duì)象、位置和動(dòng)作,并在幀級(jí)提取豐富的元數(shù)據(jù)。隨著這些技術(shù)的不斷進(jìn)步,我們可以預(yù)見,未來在視頻理解領(lǐng)域的競爭將變得異常激烈。
我們正站在一個(gè)由 AI 技術(shù)引領(lǐng)的新時(shí)代的門檻上。在這個(gè)時(shí)代,視頻不再僅僅是動(dòng)態(tài)的視覺記錄,而是智能理解與深度學(xué)習(xí)技術(shù)融合的前沿。
總之,Twelve Labs憑借其多模態(tài)視頻搜索引擎,正在改變我們處理和獲取視頻信息的方式,為數(shù)字世界帶來更為便捷、智能的體驗(yàn)。


文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://systransis.cn/yun/131131.html

相關(guān)文章

  • 那些開創(chuàng)深度學(xué)習(xí)的大師們

    摘要:今年月日收購了基于深度學(xué)習(xí)的計(jì)算機(jī)視覺創(chuàng)業(yè)公司。這項(xiàng)基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)已經(jīng)開發(fā)完成,正在測(cè)試。深度學(xué)習(xí)的誤區(qū)及產(chǎn)品化浪潮百度首席科學(xué)家表示目前圍繞存在著某種程度的夸大,它不單出現(xiàn)于媒體的字里行間,也存在于一些研究者之中。 在過去的三十年,深度學(xué)習(xí)運(yùn)動(dòng)一度被認(rèn)為是學(xué)術(shù)界的一個(gè)異類,但是現(xiàn)在, Geoff Hinton(如圖1)和他的深度學(xué)習(xí)同事,包括紐約大學(xué)Yann LeCun和蒙特...

    Jackwoo 評(píng)論0 收藏0
  • 螞蟻百靈大模型:多模態(tài)能力讓大模型一樣理解感知

    7月5日,在2024世界人工智能大會(huì)可信大模型助力產(chǎn)業(yè)創(chuàng)新發(fā)展論壇上,螞蟻集團(tuán)公布其自研百靈大模型最新研發(fā)進(jìn)展:百靈大模型已具備能看會(huì)聽、能說會(huì)畫的原生多模態(tài)能力,可以直接理解并訓(xùn)練音頻、視頻、圖、文等多模態(tài)數(shù)據(jù)。原生多模態(tài)被認(rèn)為是通往AGI的必經(jīng)之路,在國內(nèi),目前只有為數(shù)不多的大模型廠商實(shí)現(xiàn)了這一能力。從大會(huì)現(xiàn)場的演示看到,多模態(tài)技術(shù)可以讓大模型更像人一樣感知和互動(dòng),支撐智能體體驗(yàn)升級(jí),百靈的多...

    UCloud小助手 評(píng)論0 收藏0
  • 深度學(xué)習(xí)鼻祖杰夫·辛頓及巨頭們的人才搶奪戰(zhàn)

    摘要:毫無疑問,現(xiàn)在深度學(xué)習(xí)是主流。所以科技巨頭們包括百度等紛紛通過收購深度學(xué)習(xí)領(lǐng)域的初創(chuàng)公司來招攬人才。這項(xiàng)基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)已經(jīng)開發(fā)完成,正在測(cè)試。 在過去的三十年,深度學(xué)習(xí)運(yùn)動(dòng)一度被認(rèn)為是學(xué)術(shù)界的一個(gè)異類,但是現(xiàn)在,?Geoff Hinton(如圖1)和他的深度學(xué)習(xí)同事,包括紐約大學(xué)Yann LeCun和蒙特利爾大學(xué)的Yoshua Bengio,在互聯(lián)網(wǎng)世界受到前所未有的關(guān)注...

    YanceyOfficial 評(píng)論0 收藏0
  • [譯] 在 Twitch 代碼直播一年的總結(jié)

    摘要:寫在前面一個(gè)寫硬件的開發(fā)妹子在游戲直播平臺(tái)上直播寫代碼了一年后的總結(jié),這篇文章非常輕快和可愛,跟妹子的顏值一樣,讀來也很輕松閑適。我非常緊張,并且在直播前一晚我熬了一整夜來演練要直播的內(nèi)容。這也會(huì)讓直播質(zhì)量更進(jìn)一步。 寫在前面: 一個(gè)寫硬件的開發(fā)妹子在 游戲直播平臺(tái) Twitch 上直播寫代碼了一年后的總結(jié),這篇文章非常輕快和可愛,跟妹子的顏值一樣,讀來也很輕松閑適。決定翻譯這篇,也是...

    callmewhy 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<