成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

一直爆料OpenAI「草莓」的賬號(hào),竟然是個(gè)智能體?Agent Q橫空出世,AI界新秀or營銷大師

UCloud小助手 / 602人閱讀

當(dāng)炒作出了「潑天的流量」,已經(jīng)沒人關(guān)心產(chǎn)品厲不厲害了。

近日,OpenAI 的秘密項(xiàng)目「Q*」引起了業(yè)內(nèi)人士的廣泛關(guān)注。上個(gè)月,代號(hào)為「草莓(Strawberry)」的項(xiàng)目曝光,據(jù)說它是「Q*」的延續(xù),并可能具備高級推理能力。

而就在最近幾天,關(guān)于這個(gè)項(xiàng)目,網(wǎng)絡(luò)上又來了幾波「鴿死人不償命」的傳播。尤其是一個(gè)「草莓哥」的賬號(hào),不間斷地宣傳,給人期望又讓人失望。

image.png

網(wǎng)友們對Agent Q背后的技術(shù)充滿了好奇。有人猜測,這背后可能有OpenAI的Q*項(xiàng)目加持。MultiOn公司不僅給Agent Q開設(shè)了獨(dú)立的推特賬號(hào),而且賬號(hào)的背景圖片和基本信息都與草莓有關(guān),這無疑增加了人們對其背后技術(shù)的好奇。

沒想到,這個(gè) Sam Altman 出現(xiàn)在哪里,它就在哪里跟帖的「營銷號(hào)」,皮下竟然是個(gè)智能體?

當(dāng)?shù)貢r(shí)間8月14日,一家 AI 智能體初創(chuàng)公司「MultiOn」的創(chuàng)始人直接出來認(rèn)領(lǐng):雖然沒等來 OpenAI 發(fā)布「Q*」,但我們發(fā)了操控「草莓哥」賬號(hào)的全新智能體 Agent Q,快來和我們在線玩耍吧!

OpenAI 這一波營銷操作讓很多人都感到困惑,仿佛是在為自己鋪路卻又讓人摸不著頭腦。畢竟,最近不少人熬夜等待 OpenAI 的「大新聞」。事情的起因要追溯到 Sam Altman 與「草莓哥」的互動(dòng)——在 Sam Altman 曬出的草莓照片下,他回復(fù)「草莓哥」說:驚喜馬上就來。

image.png

不過,「MultiOn」的創(chuàng)始人 Div Garg 已悄悄刪除了他認(rèn)領(lǐng) Agent Q 就是「草莓哥」的帖子。

這次,「MultiOn」宣布推出了突破性的 AI 智能體 Agent Q。該智能體的訓(xùn)練方法結(jié)合了蒙特卡洛樹搜索(MCTS)自我批評,并通過一種名為直接偏好優(yōu)化(DPO)的算法學(xué)習(xí)人類反饋。


Agent Q 是什么

Agent Q是MultiOn公司聯(lián)合斯坦福大學(xué)推出的自監(jiān)督代理推理和搜索框架。Agent Q融合了引導(dǎo)式蒙特卡洛樹搜索(MCTS)AI自我批評直接偏好優(yōu)化(DPO)等技術(shù),使A1模型能通過迭代微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行自我改進(jìn)。Agent Q在網(wǎng)頁導(dǎo)航和多步任務(wù)執(zhí)行中展現(xiàn)出色性能,在OpenTable真實(shí)預(yù)訂任務(wù)中,將成功率從18.6%提升至95.4%,標(biāo)志著A在自主性和復(fù)雜決策能力上的重大突破。

作為具有規(guī)劃和 AI 自我修復(fù)功能的下一代智能體,Agent Q 的性能是 LLaMA 3 基線零樣本性能的 3.4 倍。在真實(shí)場景任務(wù)的評估中,Agent Q 的成功率高達(dá) 95.4%。

Agent Q結(jié)合了搜索、自我反思和強(qiáng)化學(xué)習(xí),能夠進(jìn)行規(guī)劃和自我修復(fù)。它通過引入一種新的學(xué)習(xí)和推理框架,解決了之前LLM訓(xùn)練技術(shù)的局限性,使其能夠?qū)崿F(xiàn)自主網(wǎng)頁導(dǎo)航。

它能夠?yàn)槟泐A(yù)定某個(gè)時(shí)間某家餐廳的座位。

image.png

然后為你執(zhí)行網(wǎng)頁操作,比如查詢空位情況。最終成功預(yù)定。

image.png

此外還能預(yù)定航班(比如本周六從紐約飛往舊金山,單程、靠窗和經(jīng)濟(jì)艙)。

image.png

在模擬網(wǎng)上商店的任務(wù)中,Agent Q展現(xiàn)了強(qiáng)大的搜索能力。而在Open Table的真實(shí)預(yù)訂任務(wù)中,Agent Q更是將LLaMa-3的零樣本成功率從18.6%提升至81.7%,分?jǐn)?shù)提高比例達(dá)340%,而且僅經(jīng)過了一天的自主數(shù)據(jù)收集。

image.png

不過,網(wǎng)友似乎對 Agent Q 并不買賬。大家關(guān)心更多的還是他們是否真的借「草莓哥」賬號(hào)炒作的事情,甚至有些人稱他們?yōu)闊o恥的騙子。

重要組件和方法概覽

目前,Agent Q 的相關(guān)論文已經(jīng)放出,由 MultiOn 和斯坦福大學(xué)的研究者聯(lián)合撰寫。這項(xiàng)研究的成果將在今年晚些時(shí)候向開發(fā)人員和使用 MultiOn 的普通用戶開放。

image.png

論文地址:

https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

總結(jié)一下:Agent Q 能夠自主地在網(wǎng)頁上進(jìn)行規(guī)劃,并具備自我糾錯(cuò)的能力。它能夠從成功和失敗的經(jīng)驗(yàn)中學(xué)習(xí),不斷提升在復(fù)雜任務(wù)中的表現(xiàn)。最終,這款智能體能夠更好地規(guī)劃如何在互聯(lián)網(wǎng)上操作,以適應(yīng)現(xiàn)實(shí)世界中的復(fù)雜情況。

從技術(shù)角度來看,Agent Q 的主要組件包括以下幾點(diǎn):

  • 引導(dǎo)式蒙特卡洛樹搜索(MCTS):Agent Q使用MCTS算法來指導(dǎo)代理在網(wǎng)頁環(huán)境中的探索。通過模擬可能的行動(dòng)路徑,算法能夠評估和選擇最優(yōu)的行動(dòng),從而平衡探索新信息和用已知信息。

  • AI自我批評:AgentQ在每個(gè)節(jié)點(diǎn)上生成可能的行動(dòng),并用基礎(chǔ)的大型語言模型(LLM)對這些行動(dòng)進(jìn)行自我評估,提供中間的反饋?zhàn)鳛橹虚g獎(jiǎng)勵(lì)來指導(dǎo)搜索步驟。

  • 直接偏好優(yōu)化(DPO):一種離線強(qiáng)化學(xué)習(xí)方法,用于優(yōu)化策略,使AgentQ能從成功的和不成功的軌跡中學(xué)習(xí)。DPO算法通過直接優(yōu)化偏好對來微調(diào)模型,不依賴于傳統(tǒng)的獎(jiǎng)勵(lì)信號(hào)。

  • 策略迭代優(yōu)化:Agent Q通過迭代微調(diào),結(jié)合MCTS生成的數(shù)據(jù)和AI自我批評的反饋,構(gòu)建偏好對,從而優(yōu)化模型性能。

  • image.png

Agent Q的應(yīng)用場景

  • 電子商務(wù):在模擬WebShop環(huán)境中,Agent Q可自動(dòng)化瀏覽和購買流程,幫助用戶快速找到所需商品并完成交易。

  • 在線預(yù)訂服務(wù):Agent Q能在OpenTable等在線預(yù)訂平臺(tái)上為用戶預(yù)訂餐廳、酒店服務(wù),處理所有相關(guān)的步驟。

  • 軟件開發(fā):Agent Q可以輔助軟件開發(fā),從代碼生成、測試到文檔編寫,提高開發(fā)效率并減少人為錯(cuò)誤。

  • 客戶服務(wù):作為智能客服代理,Agent Q能處理客戶咨詢,提供即時(shí)反饋,并解決常見問題。

  • 數(shù)據(jù)分析:Agent Q能分析大量數(shù)據(jù),為企業(yè)提供洞察和建議,幫助做出更加數(shù)據(jù)驅(qū)動(dòng)的決策。

  • 個(gè)性化推薦:AgentQ可以根據(jù)用戶的歷史行為和偏好,提供個(gè)性化的內(nèi)容或產(chǎn)品推薦。

雖然Agent Q在評估實(shí)驗(yàn)中表現(xiàn)出色,但目前所用的方法仍存在許多討論和改進(jìn)的空間。例如,推理算法的設(shè)計(jì)、搜索策略的選擇以及在線安全與交互等方面都需要進(jìn)一步研究和優(yōu)化。

Agent Q的出現(xiàn)無疑是AI智能體領(lǐng)域的一大進(jìn)步,但它是否能夠成為AI界的新貴,還是僅僅是一次高明的炒作,還有待時(shí)間的檢驗(yàn)。無論如何,Agent Q的發(fā)布都為AI的發(fā)展帶來了新的可能性和啟示。


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://systransis.cn/yun/131152.html

相關(guān)文章

  • OpenAI 以 10 億美元出售「靈魂」,網(wǎng)友熱評不再「Open」

    摘要:近日,一篇在上成為了網(wǎng)友熱議的話題。在這種結(jié)構(gòu)改變幾個(gè)月后,微軟宣布注資億美元。與微軟的合作關(guān)系是基于一個(gè)重要的前提,即微軟有權(quán)將的部分技術(shù)商業(yè)化。網(wǎng)友紛紛稱早已應(yīng)該更名為。 編譯?| 禾木木 出品 |?AI科技大本營(ID:rgznai100) OpenAI 如何以 10 億美元的價(jià)...

    wenzi 評論0 收藏0
  • 關(guān)于增強(qiáng)學(xué)習(xí)你應(yīng)該了解五件事兒

    摘要:摘要本文主要是講解了機(jī)器學(xué)習(xí)中的增強(qiáng)學(xué)習(xí)方法的基本原理,常用算法及應(yīng)用場景,最后給出了學(xué)習(xí)資源,對于初學(xué)者而言可以將其作為入門指南。下圖表示了強(qiáng)化學(xué)習(xí)模型中涉及的基本思想和要素。 摘要: 本文主要是講解了機(jī)器學(xué)習(xí)中的增強(qiáng)學(xué)習(xí)方法的基本原理,常用算法及應(yīng)用場景,最后給出了學(xué)習(xí)資源,對于初學(xué)者而言可以將其作為入門指南。 強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是當(dāng)前最熱門的...

    huangjinnan 評論0 收藏0
  • 40張圖看懂撲克AI對抗人類30年歷史,解密冷撲大師前世今生

    摘要:月,卡耐基梅隆大學(xué)的程序在一對一不限注的撲克比賽中,擊敗了一組的德州撲克職業(yè)選手。概述擊敗人類冠軍的三件事的深藍(lán),由卡內(nèi)基梅隆大學(xué)開飯,在年的復(fù)賽中擊敗國際象棋世界冠軍卡斯帕羅夫。年,奧克蘭大學(xué)發(fā)布。 2017年是AI在撲克上取得突破的一年,在AI的發(fā)展歷史上,具有里程碑的意義。1月,卡耐基梅隆大學(xué)的 AI 程序在一對一不限注的撲克比賽中,擊敗了一組的德州撲克職業(yè)選手。出乎所有人的意外,這一...

    YuboonaZhang 評論0 收藏0
  • OpenAI終止對中國提供API服務(wù),開發(fā)者們該如何應(yīng)對?

    6月25日凌晨,陸續(xù)有包括中國大陸在內(nèi)的各國和相關(guān)地區(qū)API開發(fā)者在社交媒體上表示,他們收到了來自一封來自O(shè)penAI的警告信。其內(nèi)容是:我們的數(shù)據(jù)顯示,貴組織的 APl 流量來自O(shè)penAl目前不支持的地區(qū)。您可以在此處找到受支持的國家和地區(qū)。我們將從7月9日開始采取額外措施,阻止來自不在我們支持的國家和地區(qū)列表中的地區(qū)的 APl 流量。要繼續(xù)使用OpenAl的服務(wù),您需要在受支持的地區(qū)訪問服務(wù)...

    UCloud小助手 評論0 收藏0

發(fā)表評論

0條評論

最新活動(dòng)
閱讀需要支付1元查看
<