一直爆料OpenAI「草莓」的賬號(hào)，竟然是個(gè)智能體？Agent Q橫空出世，AI界新秀or營銷大師

UCloud小助手發(fā)布于2024-08-16 14:40 / 602人閱讀

當(dāng)炒作出了「潑天的流量」，已經(jīng)沒人關(guān)心產(chǎn)品厲不厲害了。

近日，OpenAI 的秘密項(xiàng)目「Q*」引起了業(yè)內(nèi)人士的廣泛關(guān)注。上個(gè)月，代號(hào)為「草莓（Strawberry）」的項(xiàng)目曝光，據(jù)說它是「Q*」的延續(xù)，并可能具備高級推理能力。

而就在最近幾天，關(guān)于這個(gè)項(xiàng)目，網(wǎng)絡(luò)上又來了幾波「鴿死人不償命」的傳播。尤其是一個(gè)「草莓哥」的賬號(hào)，不間斷地宣傳，給人期望又讓人失望。

網(wǎng)友們對Agent Q背后的技術(shù)充滿了好奇。有人猜測，這背后可能有OpenAI的Q*項(xiàng)目加持。MultiOn公司不僅給Agent Q開設(shè)了獨(dú)立的推特賬號(hào)，而且賬號(hào)的背景圖片和基本信息都與草莓有關(guān)，這無疑增加了人們對其背后技術(shù)的好奇。

沒想到，這個(gè) Sam Altman 出現(xiàn)在哪里，它就在哪里跟帖的「營銷號(hào)」，皮下竟然是個(gè)智能體？

當(dāng)?shù)貢r(shí)間8月14日，一家 AI 智能體初創(chuàng)公司「MultiOn」的創(chuàng)始人直接出來認(rèn)領(lǐng)：雖然沒等來 OpenAI 發(fā)布「Q*」，但我們發(fā)了操控「草莓哥」賬號(hào)的全新智能體 Agent Q，快來和我們在線玩耍吧！

OpenAI 這一波營銷操作讓很多人都感到困惑，仿佛是在為自己鋪路卻又讓人摸不著頭腦。畢竟，最近不少人熬夜等待 OpenAI 的「大新聞」。事情的起因要追溯到 Sam Altman 與「草莓哥」的互動(dòng)——在 Sam Altman 曬出的草莓照片下，他回復(fù)「草莓哥」說：驚喜馬上就來。

不過，「MultiOn」的創(chuàng)始人 Div Garg 已悄悄刪除了他認(rèn)領(lǐng) Agent Q 就是「草莓哥」的帖子。

這次，「MultiOn」宣布推出了突破性的 AI 智能體 Agent Q。該智能體的訓(xùn)練方法結(jié)合了蒙特卡洛樹搜索(MCTS)和自我批評，并通過一種名為直接偏好優(yōu)化(DPO)的算法學(xué)習(xí)人類反饋。

Agent Q 是什么

Agent Q是MultiOn公司聯(lián)合斯坦福大學(xué)推出的自監(jiān)督代理推理和搜索框架。Agent Q融合了引導(dǎo)式蒙特卡洛樹搜索（MCTS）、AI自我批評和直接偏好優(yōu)化（DPO）等技術(shù)，使A1模型能通過迭代微調(diào)和基于人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行自我改進(jìn)。Agent Q在網(wǎng)頁導(dǎo)航和多步任務(wù)執(zhí)行中展現(xiàn)出色性能，在OpenTable真實(shí)預(yù)訂任務(wù)中，將成功率從18.6%提升至95.4%，標(biāo)志著A在自主性和復(fù)雜決策能力上的重大突破。

作為具有規(guī)劃和 AI 自我修復(fù)功能的下一代智能體，Agent Q 的性能是 LLaMA 3 基線零樣本性能的 3.4 倍。在真實(shí)場景任務(wù)的評估中，Agent Q 的成功率高達(dá) 95.4%。

Agent Q結(jié)合了搜索、自我反思和強(qiáng)化學(xué)習(xí)，能夠進(jìn)行規(guī)劃和自我修復(fù)。它通過引入一種新的學(xué)習(xí)和推理框架，解決了之前LLM訓(xùn)練技術(shù)的局限性，使其能夠?qū)崿F(xiàn)自主網(wǎng)頁導(dǎo)航。

它能夠?yàn)槟泐A(yù)定某個(gè)時(shí)間某家餐廳的座位。

然后為你執(zhí)行網(wǎng)頁操作，比如查詢空位情況。最終成功預(yù)定。

此外還能預(yù)定航班（比如本周六從紐約飛往舊金山，單程、靠窗和經(jīng)濟(jì)艙）。

在模擬網(wǎng)上商店的任務(wù)中，Agent Q展現(xiàn)了強(qiáng)大的搜索能力。而在Open Table的真實(shí)預(yù)訂任務(wù)中，Agent Q更是將LLaMa-3的零樣本成功率從18.6%提升至81.7%，分?jǐn)?shù)提高比例達(dá)340%，而且僅經(jīng)過了一天的自主數(shù)據(jù)收集。

不過，網(wǎng)友似乎對 Agent Q 并不買賬。大家關(guān)心更多的還是他們是否真的借「草莓哥」賬號(hào)炒作的事情，甚至有些人稱他們?yōu)闊o恥的騙子。

重要組件和方法概覽

目前，Agent Q 的相關(guān)論文已經(jīng)放出，由 MultiOn 和斯坦福大學(xué)的研究者聯(lián)合撰寫。這項(xiàng)研究的成果將在今年晚些時(shí)候向開發(fā)人員和使用 MultiOn 的普通用戶開放。

論文地址：

https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

總結(jié)一下：Agent Q 能夠自主地在網(wǎng)頁上進(jìn)行規(guī)劃，并具備自我糾錯(cuò)的能力。它能夠從成功和失敗的經(jīng)驗(yàn)中學(xué)習(xí)，不斷提升在復(fù)雜任務(wù)中的表現(xiàn)。最終，這款智能體能夠更好地規(guī)劃如何在互聯(lián)網(wǎng)上操作，以適應(yīng)現(xiàn)實(shí)世界中的復(fù)雜情況。

從技術(shù)角度來看，Agent Q 的主要組件包括以下幾點(diǎn)：

引導(dǎo)式蒙特卡洛樹搜索（MCTS）：Agent Q使用MCTS算法來指導(dǎo)代理在網(wǎng)頁環(huán)境中的探索。通過模擬可能的行動(dòng)路徑，算法能夠評估和選擇最優(yōu)的行動(dòng)，從而平衡探索新信息和用已知信息。
AI自我批評：AgentQ在每個(gè)節(jié)點(diǎn)上生成可能的行動(dòng)，并用基礎(chǔ)的大型語言模型（LLM）對這些行動(dòng)進(jìn)行自我評估，提供中間的反饋?zhàn)鳛橹虚g獎(jiǎng)勵(lì)來指導(dǎo)搜索步驟。
直接偏好優(yōu)化（DPO）：一種離線強(qiáng)化學(xué)習(xí)方法，用于優(yōu)化策略，使AgentQ能從成功的和不成功的軌跡中學(xué)習(xí)。DPO算法通過直接優(yōu)化偏好對來微調(diào)模型，不依賴于傳統(tǒng)的獎(jiǎng)勵(lì)信號(hào)。
策略迭代優(yōu)化：Agent Q通過迭代微調(diào)，結(jié)合MCTS生成的數(shù)據(jù)和AI自我批評的反饋，構(gòu)建偏好對，從而優(yōu)化模型性能。

Agent Q的應(yīng)用場景

電子商務(wù)：在模擬WebShop環(huán)境中，Agent Q可自動(dòng)化瀏覽和購買流程，幫助用戶快速找到所需商品并完成交易。
在線預(yù)訂服務(wù)：Agent Q能在OpenTable等在線預(yù)訂平臺(tái)上為用戶預(yù)訂餐廳、酒店服務(wù)，處理所有相關(guān)的步驟。
軟件開發(fā)：Agent Q可以輔助軟件開發(fā)，從代碼生成、測試到文檔編寫，提高開發(fā)效率并減少人為錯(cuò)誤。
客戶服務(wù)：作為智能客服代理，Agent Q能處理客戶咨詢，提供即時(shí)反饋，并解決常見問題。
數(shù)據(jù)分析：Agent Q能分析大量數(shù)據(jù)，為企業(yè)提供洞察和建議，幫助做出更加數(shù)據(jù)驅(qū)動(dòng)的決策。
個(gè)性化推薦：AgentQ可以根據(jù)用戶的歷史行為和偏好，提供個(gè)性化的內(nèi)容或產(chǎn)品推薦。

雖然Agent Q在評估實(shí)驗(yàn)中表現(xiàn)出色，但目前所用的方法仍存在許多討論和改進(jìn)的空間。例如，推理算法的設(shè)計(jì)、搜索策略的選擇以及在線安全與交互等方面都需要進(jìn)一步研究和優(yōu)化。

Agent Q的出現(xiàn)無疑是AI智能體領(lǐng)域的一大進(jìn)步，但它是否能夠成為AI界的新貴，還是僅僅是一次高明的炒作，還有待時(shí)間的檢驗(yàn)。無論如何，Agent Q的發(fā)布都為AI的發(fā)展帶來了新的可能性和啟示。

GPU云服務(wù)器 GPU算力平臺(tái) 郵件營銷大師電子郵件營銷大師有界緩存的實(shí)現(xiàn) ai智能語音

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://systransis.cn/yun/131152.html

發(fā)表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關(guān)注我要私信

TA的文章

服務(wù)器常用端口大全

閱讀 177·2024-11-07 17:59
又來!OpenAI 宮斗大戲曝光,首席技術(shù)官M(fèi)ira 離職

閱讀 225·2024-09-27 16:59
2.4K star的GOT-OCR2.0：端到端OCR 模型

閱讀 357·2024-09-23 10:37
Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

閱讀 403·2024-09-14 16:58
Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

閱讀 266·2024-09-14 16:58
網(wǎng)頁開發(fā)助手——自動(dòng)編寫運(yùn)行代碼

閱讀 371·2024-08-29 18:47
一直爆料OpenAI「草莓」的賬號(hào)，竟然是個(gè)智能體？Agent Q橫空出世，AI界新秀or營銷大師

閱讀 603·2024-08-16 14:40
傳媒人必備：不花錢的AI開源視頻神助攻

閱讀 322·2024-08-14 17:54

成人国产在线小视频_日韩寡妇人妻调教在线播放_色成人www永久在线观看_2018国产精品久久_亚洲欧美高清在线30p_亚洲少妇综合一区_黄色在线播放国产_亚洲另类技巧小说校园_国产主播xx日韩_a级毛片在线免费

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺(tái)、長期優(yōu)惠，快來選購！

一直爆料OpenAI「草莓」的賬號(hào)，竟然是個(gè)智能體？Agent Q橫空出世，AI界新秀or營銷大師

重要組件和方法概覽

Agent Q的應(yīng)用場景

相關(guān)文章

OpenAI 以 10 億美元出售「靈魂」，網(wǎng)友熱評不再「Open」

關(guān)于增強(qiáng)學(xué)習(xí)你應(yīng)該了解的五件事兒

40張圖看懂撲克AI對抗人類30年歷史，解密冷撲大師前世今生

OpenAI終止對中國提供API服務(wù)，開發(fā)者們該如何應(yīng)對？

發(fā)表評論

0條評論

UCloud小助手

男|高級講師

TA的文章

服務(wù)器常用端口大全

又來!OpenAI 宮斗大戲曝光,首席技術(shù)官M(fèi)ira 離職

2.4K star的GOT-OCR2.0：端到端OCR 模型

Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

Openai 放出大招！O1: 邁向下一代人工智能的2.0時(shí)代

網(wǎng)頁開發(fā)助手——自動(dòng)編寫運(yùn)行代碼