簧片在线观看,heyzo无码中文字幕人妻,天天想你在线播放免费观看,JAPAN4KTEEN体内射精

正在閱讀:

2025 AI Agent迷局:誰(shuí)在玩真的,誰(shuí)在演戲?

掃一掃下載界面新聞APP

2025 AI Agent迷局:誰(shuí)在玩真的,誰(shuí)在演戲?

如果將AI Agent形容為一場(chǎng)馬拉松,2025年的AI Agent行至何處?

文| 適道 獅刀 Rika

編輯|騰訊科技 鄭可君 郝博陽(yáng)

2023年底,斯坦福大學(xué)發(fā)布了一款引發(fā)轟動(dòng)的AI實(shí)驗(yàn)項(xiàng)目——"小鎮(zhèn)模擬游戲"。在這個(gè)虛擬小鎮(zhèn)里,25個(gè)AI角色能夠自主交談、建立關(guān)系、制定計(jì)劃,展現(xiàn)出了令人驚嘆的社交能力。這個(gè)實(shí)驗(yàn)讓人們第一次對(duì)AI Agent(智能體)產(chǎn)生了期待——具有自主意識(shí)和決策能力的AI助手指日可待。

一年過(guò)去了,AI Agent的概念在業(yè)界炙手可熱。微軟、Google等科技巨頭紛紛布局,初創(chuàng)公司們也爭(zhēng)相推出各類"Agent"產(chǎn)品。然而,當(dāng)我們仔細(xì)觀察這些號(hào)稱是"Agent"的產(chǎn)品時(shí),會(huì)發(fā)現(xiàn)一個(gè)尷尬的現(xiàn)實(shí):它們與真正的Agent相去甚遠(yuǎn),更像是僅僅具備自然語(yǔ)言理解能力的對(duì)話機(jī)器人。

這種"形似神不似"的現(xiàn)象,在AI硬件領(lǐng)域也不斷上演。2024年10月,智能戒指品牌Oura推出了最新款Oura Ring 4,并"識(shí)時(shí)務(wù)"地加入了AI功能。很快,Oura估值超50億美金,成為了商業(yè)化最成功的"AI硬件"廠商之一。然而,一個(gè)共識(shí)是:Oura的成功與AI關(guān)系并不大,其核心價(jià)值仍在于健康追蹤這一基礎(chǔ)功能。相比之下,真正主打AI的硬件產(chǎn)品,如AI Pin、Rabbit R1卻遭遇了"上市即翻車"的命運(yùn)。

什么稱得上AI Agent?隨手打開一個(gè)大模型APP,映入眼簾的Prompt Agent?還是編程領(lǐng)域的專業(yè) Agent Cursor?亦或是鋼鐵俠的全能助手Jarvis?

美國(guó)VC Madrona合伙人Jon Turow曾指出:當(dāng)你聊過(guò)足夠多的從業(yè)者,你會(huì)發(fā)現(xiàn)有一系列不同概念的東西,它們都叫做Agent 。

如果將AI Agent形容為一場(chǎng)馬拉松,2025年的AI Agent行至何處?

2024年AI Agent觀察:一半是海水,一半是火焰

熱鬧的景象:各路玩家就位

2024上半年,大模型價(jià)格戰(zhàn)還在轟轟烈烈進(jìn)行;下半年,AI Agent爭(zhēng)奪戰(zhàn)就已經(jīng)蓄勢(shì)待發(fā)。

海外市場(chǎng),OpenAI、Anthropic、微軟、谷歌等科技巨頭紛紛公布相關(guān)進(jìn)展,將自家Agent實(shí)力當(dāng)作牌桌上的重要籌碼。

10月,Anthropic 推出了名為“Computer Use”的AI Agent系統(tǒng),號(hào)稱能夠“像人一樣操作計(jì)算機(jī)”。這是一個(gè)特殊API,允許開發(fā)者指導(dǎo) Claude完成各種計(jì)算機(jī)操作任務(wù)——觀察屏幕內(nèi)容、移動(dòng)鼠標(biāo)、點(diǎn)擊按鈕以及打字等等。開發(fā)者可以通過(guò)該 API 將書面指令轉(zhuǎn)換為具體的計(jì)算機(jī)指令,從而實(shí)現(xiàn)自動(dòng)化任務(wù)。 

微軟也是AI Agent的重要推動(dòng)者。2024年10 月,微軟公布了一項(xiàng)重要計(jì)劃:面向 Dynamics 365業(yè)務(wù)應(yīng)用平臺(tái),開發(fā)部署10款A(yù)I Agent——將主要服務(wù)于企業(yè)的銷售環(huán)節(jié)、會(huì)計(jì)業(yè)務(wù)以及客戶服務(wù)等關(guān)鍵領(lǐng)域。按照時(shí)間表,這些AI Agent將在年底開放公測(cè),測(cè)試階段預(yù)計(jì)延續(xù)到 2025 年初期。

谷歌的反應(yīng)相對(duì)較慢,但在年底也趕上了進(jìn)度。12月,谷歌發(fā)布了全新多模態(tài)大模型Gemini 2.0。在新模型的加持下,谷歌內(nèi)置了三款A(yù)I Agent——“通用大模型助手”Project Astra、“瀏覽器助手”Project Mariner 和“編程助手”Jules。

“編程助手”Jules能夠作為自主代理直接集成到GitHub的工作流程系統(tǒng)中,分析復(fù)雜的代碼庫(kù),跨多個(gè)文件實(shí)施修復(fù),并準(zhǔn)備詳細(xì)的拉取請(qǐng)求,無(wú)需持續(xù)的人工監(jiān)督;而在游戲《部落沖突》演示中,谷歌AI Agent不僅能夠向玩家介紹兵種特性,給出組合建議,還可以在Reddit檢索信息,為玩家提供角色選擇建議。

OpenAI雖然是基礎(chǔ)模型的領(lǐng)先者,在Agent方面布局卻略顯遲緩。7月,OpenAI 更新AGI路線圖,并指出自己處于第一層,接近達(dá)到第二層;而第三層才是AI Agent。

OpenAI預(yù)計(jì)將于2025年1月推出全新AI Agent——Operator,該系統(tǒng)能夠自動(dòng)執(zhí)行各種復(fù)雜操作,包括編寫代碼、預(yù)訂旅行、自動(dòng)電商購(gòu)物等。據(jù)悉,Operator可能會(huì)在Computer use的基礎(chǔ)上進(jìn)行大幅度創(chuàng)新和應(yīng)用簡(jiǎn)化,擴(kuò)大AI Agent的使用范圍和應(yīng)用場(chǎng)景。

國(guó)內(nèi)市場(chǎng),百度、阿里、騰訊、智譜等大廠也紛紛入局。

在B端,百度文心智能體平臺(tái)、騰訊元器、訊飛星火智能體創(chuàng)作中心、通義智能體、字節(jié)扣子等面向企業(yè)用戶提供了智能體創(chuàng)建平臺(tái),并開始在其AI智能助手界面中添加AI Agent入口。

在C端,支付寶旗下AI App支小寶、智譜AutoGLM點(diǎn)燃了消費(fèi)者用戶的激情。根據(jù)演示,智譜AutoGLM能夠?yàn)g覽并理解屏幕信息,做出任務(wù)規(guī)劃,實(shí)現(xiàn)手機(jī)上常用操作的模擬執(zhí)行——只需接收簡(jiǎn)單的文字/語(yǔ)音指令,它就可以模擬人類操作手機(jī),在朋友圈點(diǎn)贊,在美團(tuán)點(diǎn)外賣,在攜程訂酒店等等。

冷靜的現(xiàn)實(shí):當(dāng)我們?cè)谡務(wù)揂I Agent時(shí),到底是在談?wù)撌裁矗?/h4>

如果只看到上述的熱鬧景象,你大概會(huì)得出結(jié)論——2024年是AI Agent的當(dāng)打之年。

但用戶能夠真正依賴的AI Agent,其實(shí)寥寥無(wú)幾。

只需花3秒鐘思考——你喜歡用哪幾款A(yù)I Agent?如果你是程序員,答案可能只是Cursor。如果我們換個(gè)問(wèn)題——你喜歡用哪幾款A(yù)I大模型?答案會(huì)五花八門,比如ChatGPT、Gemini、Claude、Kimi等等。

至少?gòu)膶?shí)感來(lái)說(shuō),目前大熱的AI Agent仍是“虛火”。

主因是“不靠譜”和“雞肋”。AI Agent依賴LLM“黑盒”,本身就存在不可預(yù)測(cè)性,而工作流程更是要將多個(gè)AI 步驟連接起來(lái),會(huì)加劇這些問(wèn)題,尤其是對(duì)于需要精確輸出的任務(wù)。用戶難以確保Agent能否始終提供準(zhǔn)確、符合上下文的響應(yīng)。

LangChain發(fā)布的State of AI Agents可以作為重要參考。其調(diào)查涉及的1300多位受訪者指出,性能質(zhì)量(41%)是首要關(guān)注點(diǎn),重要性遠(yuǎn)超成本(18.4%)和安全(18.4%)等因素。甚至對(duì)于向來(lái)格外關(guān)注成本的小企業(yè)而言,其中45.8%將性能質(zhì)量列為主要關(guān)注點(diǎn),成本因素僅為22.4%。同時(shí),報(bào)告指出,生產(chǎn)中采用AI Agents的主要挑戰(zhàn)包括:開發(fā)人員很難向團(tuán)隊(duì)和利益相關(guān)者解釋 AI Agent 的功能和行為。

此外,雖然AI Agent依賴的基座LLMs在Tool use方面表現(xiàn)不錯(cuò),但它們速度不快且成本高,特別是需要進(jìn)行循環(huán)和自動(dòng)重試時(shí)。WebArena 排行榜對(duì) LLM智能體在現(xiàn)實(shí)任務(wù)中的表現(xiàn)進(jìn)行了基準(zhǔn)測(cè)試。結(jié)果顯示,即便是表現(xiàn)最好的模型SteP,成功率也只有35.8%,而GPT-4的成功率僅達(dá)到14.9%。

那么,市面上不能“完全自理”的AI Agent算得上Agent嗎?

如果我們按吳恩達(dá)的思路就很好理解了——AI Agent是可以分層級(jí)的。他提出了Agentic System(智能體系統(tǒng)),并認(rèn)為形容詞“Agentic”比名詞“Agent”能更好地幫助我們理解這類智能體的本質(zhì)。如同自動(dòng)駕駛汽車L1-L4,Agent的進(jìn)化也是一個(gè)過(guò)程。

BabyAGI創(chuàng)始人Yohei Nakajima對(duì)于AI Agent的分類,同樣值得參考。

1、手工制作Agent:由 Prompt和API 調(diào)用組成的鏈條,具有一定自主性,但約束較多。

特征:流水線機(jī)器人,按照固定步驟完成任務(wù)。

舉例:它就像一個(gè)專門訂票的助手——當(dāng)你告訴航班需求時(shí),它能夠直接調(diào)用API搜索并完成預(yù)訂;然而一旦涉及復(fù)雜行程規(guī)劃,手工制作Agent就會(huì)“卡住”(歡迎大家代入產(chǎn)品)。

2、專業(yè)Agent:在一組任務(wù)類型和工具內(nèi)動(dòng)態(tài)決定要做什么,比手工制作Agent約束少。

特征:嫻熟工匠,能夠在特定領(lǐng)域(比如木工)熟練地使用工具,不僅能按照要求制作家具,還能根據(jù)實(shí)際需求調(diào)整設(shè)計(jì),調(diào)用材料。

舉例:AutoGPT通過(guò)CoT技術(shù)分解復(fù)雜問(wèn)題,動(dòng)態(tài)選擇最優(yōu)解決路徑。面對(duì)一個(gè)市場(chǎng)研究任務(wù),AutoGPT能自動(dòng)分解任務(wù)為“搜索趨勢(shì)”“整理數(shù)據(jù)”“生成報(bào)告”等子任務(wù)并完成。

3、通用Agent:Agent的AGI——目前還處于理論概念階段,尚未實(shí)現(xiàn)。

特征:全能助手,就像鋼鐵俠的Jarvis。你可以詢問(wèn)它任何問(wèn)題,它不僅能理解你的需求,還能結(jié)合知識(shí)和環(huán)境動(dòng)態(tài)適應(yīng),提供創(chuàng)新解決方案。

舉例:還沒有真正能實(shí)現(xiàn)的產(chǎn)品,相關(guān)研究包括更強(qiáng)的多模態(tài)交互和長(zhǎng)期記憶優(yōu)化。

處于當(dāng)前的歷史節(jié)點(diǎn),Prompt Agent數(shù)量最多,表現(xiàn)為大模型APP里的遍地Agent;垂直領(lǐng)域的專業(yè)Agent正處于爆點(diǎn),并因其實(shí)用性備受資本青睞;人類所期待的真正Agent——全能助手Jarvis,有待關(guān)鍵技術(shù)突破。這也意味著未來(lái)一段時(shí)間內(nèi),我們能看到更多“L1-L4”之間的技術(shù)進(jìn)化。

這一年AI Agent“皮下”技術(shù)進(jìn)化到哪兒了?

根據(jù)Lilian Weng列舉的公式:Agent = LLM+Memory+Planning skills+Tool use

假設(shè)你是黑暗料理界的“五虎星”。LLM代表你的知識(shí)儲(chǔ)備,包含所有菜系菜譜;Memory類似于你的廚師筆記,記錄著不同食客的口味需求,輸給“小當(dāng)家”的歷史教訓(xùn);Planning好比你的做菜規(guī)劃,面對(duì)不同要求,是先炸再烤,還是先煮再炸;Tools則是你的魔法廚具,包括如何調(diào)用不同刀具(軟件),幫助執(zhí)行復(fù)雜的任務(wù)。

AI Agent的突破取決于各項(xiàng)技術(shù)的進(jìn)步。

首先是LLM。在GPT5這樣的強(qiáng)悍“大腦”出現(xiàn)之前,OpenAI就發(fā)現(xiàn)了推理引擎的能力。

2024年10月,OpenAI高級(jí)研究科學(xué)家、德?lián)銩I之父Noam Brown提出:讓AI模型思考20秒所帶來(lái)的性能提升,相當(dāng)于將模型擴(kuò)大100,000倍并訓(xùn)練100,000倍的時(shí)間。

Brown所指的技術(shù)便是System 1/2 thinking,正是OpenAI o1長(zhǎng)出“推理能力”的秘訣。

System 1,即“快思考”,你看到一只蘋果,不需要思考,就知道這是水果;System 2,即“慢思考”,你要做一道17*24的數(shù)學(xué)題,則需拆解步驟來(lái)思考,答案才更準(zhǔn)確。

近期,谷歌DeepMind研究人員也將這項(xiàng)技術(shù)集成到AI Agent中,并開發(fā)了Talker-Reasoner框架。System 1是默認(rèn)運(yùn)行的“快速模式”,而System 2作為“備用引擎”隨時(shí)待命。當(dāng)System 1感到困惑時(shí),會(huì)將任務(wù)交給System 2處理。“雙引擎”共同運(yùn)行,對(duì)于解決復(fù)雜、冗長(zhǎng)的任務(wù)幫助巨大,突破了傳統(tǒng)AI Agent執(zhí)行業(yè)務(wù)流程的方法,極大提升了效率。

其次是記憶機(jī)制。當(dāng)生成式AI開始“胡言亂語(yǔ)”,或許不是性能問(wèn)題,而是記憶力不佳。這時(shí)候就需要RAG(檢索增強(qiáng)型生成)來(lái)幫忙。它是LLM“外掛”般的存在,能夠利用外部知識(shí)庫(kù)為L(zhǎng)LM提供相關(guān)上下文,防止LLM不懂裝懂。

然而,傳統(tǒng)RAG流程只考慮一個(gè)外部知識(shí)源,不能調(diào)用外部工具;僅生成一次性解決方案,上下文只檢索一次,不能進(jìn)行推理或驗(yàn)證。

在此情況下,融合Agent能力的RAG應(yīng)運(yùn)而生。雖然Agentic RAG在整體流程上與傳統(tǒng)RAG一脈相承:檢索-合成上下文-生成,但其融入了Agent自主規(guī)劃能力,能夠適應(yīng)更加復(fù)雜的RAG查詢?nèi)蝿?wù)——決定是否需要檢索;自主決策使用哪個(gè)檢索引擎自主規(guī)劃使用檢索引擎的步驟;評(píng)估檢索到的上下文,并決定是否重新檢索;自行規(guī)劃是否需要借助外部工具。

如果說(shuō),原始RAG是坐在圖書館查看特定問(wèn)題;那么,Agentic RAG就像拿著iPhone,調(diào)用Google瀏覽器、電子郵件等等搜索問(wèn)題。

此外,2024年YC孵化的開源Mem0項(xiàng)目,也有望成為RAG助手,并為AI Agent插上個(gè)性化記憶的翅膀。

Mem0像是大腦的“海馬體”,為L(zhǎng)LM提供了一個(gè)智能、自我優(yōu)化的記憶層。它能進(jìn)行信息分層存儲(chǔ)——將短時(shí)信息轉(zhuǎn)化為長(zhǎng)期記憶。類似于,你會(huì)整理“新學(xué)知識(shí)”,而后存入腦海;它還能建立語(yǔ)義鏈接——通過(guò)語(yǔ)義分析為存儲(chǔ)的知識(shí)創(chuàng)建關(guān)聯(lián)網(wǎng)絡(luò)。類似于,你告訴 AI自己喜歡看偵探電影,它不僅能記住,還會(huì)推測(cè)你可能喜歡的犯罪紀(jì)錄片。

基于此,Mem0能夠顯著提升AI Agent個(gè)性化記憶——?jiǎng)討B(tài)記錄用戶偏好、行為和需求,創(chuàng)建“私人記事本”。例如,當(dāng)你告訴AI Agent下周是媽媽生日,它不僅會(huì)及時(shí)提醒你送上祝福,還會(huì)根據(jù)“記憶中”你和媽媽的喜好,給出送禮建議,甚至能夠跨平臺(tái)“貨比三家”,奉上購(gòu)物鏈接。

在RAG方面的突破不止于此,俄亥俄州立大學(xué)和斯坦福大學(xué)的科學(xué)家團(tuán)隊(duì)提出了一個(gè)有趣的思路:讓AI擁有一個(gè)類似人類海馬體的“記憶大腦”。他們從神經(jīng)科學(xué)的角度出發(fā),模仿人腦海馬體在長(zhǎng)期記憶中的作用,設(shè)計(jì)出一個(gè)名為HippoRAG的模型,像人腦一樣高效地整合和搜索知識(shí)。實(shí)驗(yàn)表明,“記憶大腦”能夠在多跳問(wèn)答等需要知識(shí)整合的任務(wù)上取得大幅提升。或許探索出讓大模型具備“類人”記憶的一個(gè)全新方向。

Tool use的進(jìn)步更是肉眼看見。例如,Claude的Computer Use,通過(guò)構(gòu)建API,將自然語(yǔ)言提示轉(zhuǎn)化為各種電腦操作指令,由開發(fā)者自動(dòng)化重復(fù)性的任務(wù)、進(jìn)行測(cè)試和質(zhì)量保證,以及開放式研究。從此,AI不需要一個(gè)個(gè)專門的API“鑰匙”也能“一次性”調(diào)用各種軟件完成各種操作:用Word寫文檔,用Excel處理表格,用瀏覽器搜索信息。雖然如此,目前Computer Use能力還不完善:不能在內(nèi)部數(shù)據(jù)上訓(xùn)練該功能;受限于上下文窗口等等。Anthropic團(tuán)隊(duì)也表示,現(xiàn)在Claude的計(jì)算機(jī)使用水平只處于類似“GPT-3 時(shí)代”的早期階段,未來(lái)還有很大提升空間。

值得注意的是,AI Agent的視覺能力也取得了進(jìn)步。例如,智譜發(fā)布的 GLM-PC 將其通用的視覺-操作模型 CogAgent 應(yīng)用到了計(jì)算機(jī)上。其能夠模擬人類的視覺感知來(lái)從環(huán)境中獲取信息輸入,以進(jìn)行進(jìn)一步的推理和決策。

規(guī)劃能力方面。Planning包含任務(wù)分解——將大任務(wù)劃分成小任務(wù);反思和提煉——基于已有動(dòng)作進(jìn)行自我反思,從錯(cuò)誤中學(xué)習(xí)優(yōu)化接下來(lái)的動(dòng)作。

目前,有論文提出更為新穎的分類法:任務(wù)分解、多計(jì)劃選擇、外部模塊輔助規(guī)劃、反思與細(xì)化、記憶增強(qiáng)規(guī)劃。其中,多計(jì)劃選擇,即給AI Agent一個(gè)“選擇輪”,生成多個(gè)計(jì)劃,挑一個(gè)最好的來(lái)執(zhí)行;外部模塊輔助規(guī)劃,即借助外部規(guī)劃器,類似強(qiáng)化學(xué)習(xí)的判官。記憶增強(qiáng)規(guī)劃,就像 一個(gè)記憶面包,記住過(guò)去經(jīng)驗(yàn),為將來(lái)規(guī)劃提供幫助。這些方法并不孤立,而是相互交織,共同提升AI Agent的規(guī)劃能力。

一年以來(lái),Agent“皮下”各項(xiàng)能力均取得了進(jìn)步,其中Tool use能力已經(jīng)初步落地;記憶機(jī)制的進(jìn)步非常值得期待;LLMs的進(jìn)步則取決于巨頭的能力邊界等等。但對(duì)于Agent而言,其能力的最大化并非各項(xiàng)技術(shù)簡(jiǎn)單的加成,任何一項(xiàng)技術(shù)的突破均有望使其迎來(lái)質(zhì)變。

未來(lái),AI Agent進(jìn)化的重要挑戰(zhàn)包括但不限于:如何實(shí)現(xiàn)低延遲、帶視覺理解的實(shí)時(shí)反饋;如何構(gòu)建個(gè)性化的記憶系統(tǒng);如何在虛擬與物理環(huán)境都具備魯棒的執(zhí)行能力等等。只有當(dāng)AI Agent從“工具”到“工具使用者”時(shí),真正的Killer Agent就會(huì)出現(xiàn)。

資本的選擇——大模型遇冷,AI Agent當(dāng)立

有人說(shuō),現(xiàn)在大模型卷不動(dòng)了,要卷就卷AI Agent。

2024年,曾經(jīng)爭(zhēng)做“做中國(guó)OpenAI”的大模型公司不得已食言,以“六小虎”智譜AI、零一萬(wàn)物、百川智能、MiniMax、月之暗面和階躍星辰為例,多數(shù)公司已經(jīng)開始進(jìn)行業(yè)務(wù)調(diào)整,甚至人員縮減。大廠憑借其雄厚的家底,還能繼續(xù)卷研發(fā);更多初創(chuàng)企業(yè)被迫直面現(xiàn)實(shí),轉(zhuǎn)向大模型應(yīng)用層面,尋求更低的成本和更快的回報(bào)。

同時(shí),敏銳的資本也將目光投向了AI應(yīng)用層。

桔子IT數(shù)據(jù)顯示,2024年前9個(gè)月,國(guó)內(nèi)AI領(lǐng)域發(fā)生了317起融資案例,月均融資金額42億元,不到去年的兩成。其中,融資最多的5家公司拿走了超212億,相當(dāng)于今年國(guó)內(nèi)AI融資總額的63%。

值得注意的是,大模型和AI Agent項(xiàng)目受投資人的關(guān)注度最高——大模型發(fā)生19起融資案,AI Agent發(fā)生了18起。其次是AI視頻生成(10%),剩下50%投資案例的方向較為分散,被19個(gè)方向瓜分。

由此,在大模型“贏家通吃”的局勢(shì)下,AI Agent既是AI初創(chuàng)公司的最佳方向,也是海內(nèi)外資本的篤定之選。

YC合伙人、資深投資人Jared指出,垂直領(lǐng)域 AI Agent 作為一種新興B2B 軟件,有望成為比SaaS大10倍的新興市場(chǎng)。憑借替代人工操作、提升效率的顯著優(yōu)勢(shì),這一領(lǐng)域可能催生出市值超過(guò)3000億美元的科技巨頭。

投資人所看中的AI Agent都長(zhǎng)什么樣?

最出圈的當(dāng)屬AI編程神器Cursor。原因不外于代碼是LLMs最容易掌握的能力,其生成的訓(xùn)練數(shù)據(jù)主要來(lái)自GitHub上的開源代碼,大部分都是“有效數(shù)據(jù)”。此前,Cursor是根據(jù)用戶需求,提供建議代碼。如今,Cursor可以直接以實(shí)現(xiàn)需求為目的,一口氣幫助你創(chuàng)造代碼文件,準(zhǔn)備好運(yùn)行環(huán)境。你只需點(diǎn)擊啟動(dòng)按鈕,就可以運(yùn)行代碼。

除此之外,即便2024年尚未產(chǎn)生真正的Killer Agent,但實(shí)際上在細(xì)分領(lǐng)域,Agent已經(jīng)有遍地開花之勢(shì)了。

根據(jù)YC團(tuán)隊(duì)的最新分享。目前已經(jīng)獲得投資的Agent項(xiàng)目大多在toB領(lǐng)域。

問(wèn)卷調(diào)查和分析:Outset將 AI Agent應(yīng)用于問(wèn)卷調(diào)查和分析領(lǐng)域,可以替代傳統(tǒng)的人工調(diào)查和分析工作,例如 Qualtrics等公司提供的服務(wù)。

軟件質(zhì)量測(cè)試:Mtic利用 AI Agent進(jìn)行軟件質(zhì)量測(cè)試,可以完全取代傳統(tǒng)的 QA 測(cè)試團(tuán)隊(duì)。與之前的 QA 軟件即服務(wù)公司(如 Rainforest QA)不同,Mtic不僅提高了QA 團(tuán)隊(duì)的效率,還能完全取代人工測(cè)試。

政府合同競(jìng)標(biāo):Sweet Spot利用 AI Agent自動(dòng)搜索、填寫政府合同的標(biāo)書,可以替代人工完成這些繁瑣的任務(wù)。

客戶支持:Powerhelp利用 AI Agent,自動(dòng)完成人工接聽電話、回復(fù)郵件和解決問(wèn)題,并且能夠根據(jù)用戶提問(wèn)和歷史記錄提供個(gè)性化的解決方案,提升其滿意度。

人才招聘:Priora和Nico,利用 AI Agent進(jìn)行技術(shù)篩選和初步招聘,可以替代人工完成這些任務(wù)。

用吳恩達(dá)的發(fā)言做總結(jié):通往 AGI 的道路感覺更像是一段旅程,而不是一個(gè)目的地。但我認(rèn)為Agent式工作流,可以幫助我們?cè)谶@個(gè)非常漫長(zhǎng)的旅程中向前邁進(jìn)一小步。換句話說(shuō),即便我們暫時(shí)無(wú)法擁有“全能Agent”,但多個(gè)垂直領(lǐng)域的專業(yè)Agent逐漸出現(xiàn),將讓我們不斷獲得近似擁有Jarvis的體驗(yàn)。

2025年:有望成為AI Agent商用爆發(fā)元年

近日,前OpenAI聯(lián)創(chuàng)、SSI創(chuàng)始人 Ilya Sutskever直接宣布:預(yù)訓(xùn)練從此將徹底終結(jié)——我們只有一個(gè)互聯(lián)網(wǎng),訓(xùn)練模型需要的海量數(shù)據(jù)即將枯竭,唯有從現(xiàn)有數(shù)據(jù)中尋找新的突破,AI才會(huì)繼續(xù)發(fā)展。

Sutskever用人類大腦發(fā)展進(jìn)行類比:正如人類大腦體積停止生長(zhǎng)后,人類智慧仍在進(jìn)步。AI未來(lái)發(fā)展將轉(zhuǎn)向在現(xiàn)有LLM上構(gòu)建 AI Agent和工具。他預(yù)測(cè),以后的突破點(diǎn),就在于智能體(Agentic)、合成數(shù)據(jù)和推理時(shí)計(jì)算。其中,能夠自主完成任務(wù)的AI Agent,是未來(lái)的發(fā)展方向。

值得注意的是,與吳恩達(dá)一樣,Sutskever同樣使用“形容詞”Agentic描述智能體。

根據(jù)線性資本Bolt觀點(diǎn):我們可以用少量的、適量的、高度的Agentic“能力”描述Agent應(yīng)用的能力。例如,Router(路由)類系統(tǒng)使用LLM將輸入路由到特定的下游工作流中,具有少量的Agentic能力;State Machine(狀態(tài)機(jī))類系統(tǒng)使用多個(gè)LLMs來(lái)執(zhí)行多個(gè)路由步驟并且有能力確定每個(gè)步驟是繼續(xù)還是完成,具有相當(dāng)?shù)腁gentic能力;而Autonomous(自主體)類系統(tǒng)更進(jìn)一步,能夠使用工具甚至創(chuàng)造合適的工具去推進(jìn)系統(tǒng)的進(jìn)一步?jīng)Q策,具備完全的Agentic能力。

基于此,廠商在強(qiáng)調(diào)產(chǎn)品的Agent屬性前,不妨先回答“How agentic my system is?”

當(dāng)前不少領(lǐng)域的專業(yè)AI Agent依然不夠成熟。相關(guān)調(diào)查顯示,輸出不精確、性能差強(qiáng)人意、用戶不信任等問(wèn)題困擾其落地。但如果我們換個(gè)思路:短期內(nèi)商業(yè)化最成功的AI Agent,不一定是看起來(lái)“Agentic化”最高的產(chǎn)品;而是能夠平衡性能、可靠性,以及用戶信任的產(chǎn)品。

順著這條思路,專業(yè)AI Agent最有前途的發(fā)展道路可能是:先重點(diǎn)應(yīng)放在利用AI增強(qiáng)現(xiàn)有工具,而不是提供廣泛的全自主獨(dú)立服務(wù)。

用人機(jī)協(xié)同的方法,讓人類參與監(jiān)督和處理邊緣案例。根據(jù)當(dāng)前的能力和局限,設(shè)定不脫離現(xiàn)實(shí)的期望。通過(guò)結(jié)合嚴(yán)格約束的LLMs、良好的評(píng)估數(shù)據(jù)、人機(jī)協(xié)同監(jiān)督和傳統(tǒng)工程方法,在自動(dòng)化等復(fù)雜任務(wù)方面實(shí)現(xiàn)可靠且良好的效果。

例如,紅杉投資組合中的Rocks公司,其Agent是將人類員工融入其中。最初,Rocks開發(fā)了一項(xiàng)自動(dòng)撰寫、自動(dòng)發(fā)送電子郵件的技術(shù)。但他們發(fā)現(xiàn)將人類銷售納入流程時(shí),表現(xiàn)提升了333倍。于是,Rocks移除了自動(dòng)發(fā)送的功能。

根據(jù)具體業(yè)務(wù)場(chǎng)景,有些公司可以開發(fā)Agent完成任務(wù)的技術(shù),比如網(wǎng)絡(luò)安全領(lǐng)域的Expo;而有些公司則盡量選擇用Agent“增強(qiáng)”人類員工,比如Rocks。

那么,2025年會(huì)發(fā)生什么?

首先,不止是編程,更多垂直領(lǐng)域?qū)⑴艹觥胺N子選手”。紅杉合伙人 Konstantine Buhler預(yù)測(cè):醫(yī)療和教育等“高服務(wù)成本”領(lǐng)域?qū)⒊蔀?AI 技術(shù)的下一個(gè)重要戰(zhàn)場(chǎng)。

同時(shí),根據(jù)LangChain報(bào)告顯示:人們希望將耗時(shí)任務(wù)交給AI Agent——充當(dāng)“知識(shí)過(guò)濾器”:快速提煉關(guān)鍵信息,用戶無(wú)需自己手動(dòng)篩選海量數(shù)據(jù);“生產(chǎn)力加速器”:協(xié)助用戶安排日程、管理任務(wù),讓人類專注于更重要的工作;“客服神助攻”:幫助企業(yè)更快地處理客戶咨詢、解決問(wèn)題,大幅提升團(tuán)隊(duì)的響應(yīng)速度。

換句話說(shuō),所有耗時(shí)、耗力、耗成本的工作有望率先被垂直領(lǐng)域?qū)I(yè)AI Agent替代。

其次,AI Agent部署將由“單”變“多”。一方面,AI Agent將從單一智能體發(fā)展到“群體協(xié)作”模式。2025年會(huì)出現(xiàn)更多Multi-agent模式,多個(gè)Agent 扮演不同角色合作完成任務(wù)。例如,清華面壁智能的開源項(xiàng)目ChatDev。每個(gè) Agent 被賦予了不同的身份,有的是 CEO,有的是產(chǎn)品經(jīng)理,有的是程序員,它們能夠彼此互相合作,共同完成任務(wù)。

另一方面,隨著?模型對(duì)圖像和視頻信息的處理能?快速提升,2025年將開始出現(xiàn)更為綜合性的多模態(tài)交互,AI能夠通過(guò)物聯(lián)?、特定信息等多種感知通道進(jìn)?協(xié)同。多模態(tài)輸?和輸出使AI交互性更強(qiáng)、交互頻次更?,適?場(chǎng)景也更加豐富,AI產(chǎn)品整體?平顯著提升。

其中,Agent作為融合感知、分析、決策和執(zhí)?能?的智能體,其交互的主動(dòng)性和?動(dòng)化遠(yuǎn)超現(xiàn)有工具。

根據(jù)量子位智庫(kù)觀察:從技術(shù)和配套設(shè)施兩??發(fā)展來(lái)看,從2025年開始,AI Agent即將?泛投?使?。AI Agent有望帶來(lái)獨(dú)屬于AI 2.0時(shí)代的交互?式、產(chǎn)品形態(tài)和商業(yè)模式。

結(jié)語(yǔ)

在電影《2001:太空漫游》的開頭,一群草食人猿掙扎在饑餓和死亡的邊緣,人猿首領(lǐng)偶然揮舞了一下手里的棒骨,“發(fā)現(xiàn)”它居然是一件趁手的工具。從此,他們開始狩獵小動(dòng)物,成為食肉動(dòng)物,逐步站上了食物鏈頂端。

如果未來(lái)的人類俯瞰2025年,可能會(huì)發(fā)現(xiàn),這又是一個(gè)人類進(jìn)化的關(guān)鍵時(shí)刻,而AI Agent正是那根趁手的“棒骨”。

正如Andrej Karpathy所言,AI Agent代表著一個(gè)瘋狂的未來(lái)。

有趣的是,Agent一詞源于拉丁語(yǔ)的Agere,意思是“to do”。

如何抓住這個(gè)瘋狂的未來(lái)?你可能只需要“Agent”。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

OpenAI

  • 科大訊飛宣布星火X1升級(jí),并發(fā)布星火一體機(jī)等系列新品
  • OpenAI“高情商”模型GPT-4.5發(fā)布,定價(jià)高過(guò)GPT-4o

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

2025 AI Agent迷局:誰(shuí)在玩真的,誰(shuí)在演戲?

如果將AI Agent形容為一場(chǎng)馬拉松,2025年的AI Agent行至何處?

文| 適道 獅刀 Rika

編輯|騰訊科技 鄭可君 郝博陽(yáng)

2023年底,斯坦福大學(xué)發(fā)布了一款引發(fā)轟動(dòng)的AI實(shí)驗(yàn)項(xiàng)目——"小鎮(zhèn)模擬游戲"。在這個(gè)虛擬小鎮(zhèn)里,25個(gè)AI角色能夠自主交談、建立關(guān)系、制定計(jì)劃,展現(xiàn)出了令人驚嘆的社交能力。這個(gè)實(shí)驗(yàn)讓人們第一次對(duì)AI Agent(智能體)產(chǎn)生了期待——具有自主意識(shí)和決策能力的AI助手指日可待。

一年過(guò)去了,AI Agent的概念在業(yè)界炙手可熱。微軟、Google等科技巨頭紛紛布局,初創(chuàng)公司們也爭(zhēng)相推出各類"Agent"產(chǎn)品。然而,當(dāng)我們仔細(xì)觀察這些號(hào)稱是"Agent"的產(chǎn)品時(shí),會(huì)發(fā)現(xiàn)一個(gè)尷尬的現(xiàn)實(shí):它們與真正的Agent相去甚遠(yuǎn),更像是僅僅具備自然語(yǔ)言理解能力的對(duì)話機(jī)器人。

這種"形似神不似"的現(xiàn)象,在AI硬件領(lǐng)域也不斷上演。2024年10月,智能戒指品牌Oura推出了最新款Oura Ring 4,并"識(shí)時(shí)務(wù)"地加入了AI功能。很快,Oura估值超50億美金,成為了商業(yè)化最成功的"AI硬件"廠商之一。然而,一個(gè)共識(shí)是:Oura的成功與AI關(guān)系并不大,其核心價(jià)值仍在于健康追蹤這一基礎(chǔ)功能。相比之下,真正主打AI的硬件產(chǎn)品,如AI Pin、Rabbit R1卻遭遇了"上市即翻車"的命運(yùn)。

什么稱得上AI Agent?隨手打開一個(gè)大模型APP,映入眼簾的Prompt Agent?還是編程領(lǐng)域的專業(yè) Agent Cursor?亦或是鋼鐵俠的全能助手Jarvis?

美國(guó)VC Madrona合伙人Jon Turow曾指出:當(dāng)你聊過(guò)足夠多的從業(yè)者,你會(huì)發(fā)現(xiàn)有一系列不同概念的東西,它們都叫做Agent 。

如果將AI Agent形容為一場(chǎng)馬拉松,2025年的AI Agent行至何處?

2024年AI Agent觀察:一半是海水,一半是火焰

熱鬧的景象:各路玩家就位

2024上半年,大模型價(jià)格戰(zhàn)還在轟轟烈烈進(jìn)行;下半年,AI Agent爭(zhēng)奪戰(zhàn)就已經(jīng)蓄勢(shì)待發(fā)。

海外市場(chǎng),OpenAI、Anthropic、微軟、谷歌等科技巨頭紛紛公布相關(guān)進(jìn)展,將自家Agent實(shí)力當(dāng)作牌桌上的重要籌碼。

10月,Anthropic 推出了名為“Computer Use”的AI Agent系統(tǒng),號(hào)稱能夠“像人一樣操作計(jì)算機(jī)”。這是一個(gè)特殊API,允許開發(fā)者指導(dǎo) Claude完成各種計(jì)算機(jī)操作任務(wù)——觀察屏幕內(nèi)容、移動(dòng)鼠標(biāo)、點(diǎn)擊按鈕以及打字等等。開發(fā)者可以通過(guò)該 API 將書面指令轉(zhuǎn)換為具體的計(jì)算機(jī)指令,從而實(shí)現(xiàn)自動(dòng)化任務(wù)。 

微軟也是AI Agent的重要推動(dòng)者。2024年10 月,微軟公布了一項(xiàng)重要計(jì)劃:面向 Dynamics 365業(yè)務(wù)應(yīng)用平臺(tái),開發(fā)部署10款A(yù)I Agent——將主要服務(wù)于企業(yè)的銷售環(huán)節(jié)、會(huì)計(jì)業(yè)務(wù)以及客戶服務(wù)等關(guān)鍵領(lǐng)域。按照時(shí)間表,這些AI Agent將在年底開放公測(cè),測(cè)試階段預(yù)計(jì)延續(xù)到 2025 年初期。

谷歌的反應(yīng)相對(duì)較慢,但在年底也趕上了進(jìn)度。12月,谷歌發(fā)布了全新多模態(tài)大模型Gemini 2.0。在新模型的加持下,谷歌內(nèi)置了三款A(yù)I Agent——“通用大模型助手”Project Astra、“瀏覽器助手”Project Mariner 和“編程助手”Jules。

“編程助手”Jules能夠作為自主代理直接集成到GitHub的工作流程系統(tǒng)中,分析復(fù)雜的代碼庫(kù),跨多個(gè)文件實(shí)施修復(fù),并準(zhǔn)備詳細(xì)的拉取請(qǐng)求,無(wú)需持續(xù)的人工監(jiān)督;而在游戲《部落沖突》演示中,谷歌AI Agent不僅能夠向玩家介紹兵種特性,給出組合建議,還可以在Reddit檢索信息,為玩家提供角色選擇建議。

OpenAI雖然是基礎(chǔ)模型的領(lǐng)先者,在Agent方面布局卻略顯遲緩。7月,OpenAI 更新AGI路線圖,并指出自己處于第一層,接近達(dá)到第二層;而第三層才是AI Agent。

OpenAI預(yù)計(jì)將于2025年1月推出全新AI Agent——Operator,該系統(tǒng)能夠自動(dòng)執(zhí)行各種復(fù)雜操作,包括編寫代碼、預(yù)訂旅行、自動(dòng)電商購(gòu)物等。據(jù)悉,Operator可能會(huì)在Computer use的基礎(chǔ)上進(jìn)行大幅度創(chuàng)新和應(yīng)用簡(jiǎn)化,擴(kuò)大AI Agent的使用范圍和應(yīng)用場(chǎng)景。

國(guó)內(nèi)市場(chǎng),百度、阿里、騰訊、智譜等大廠也紛紛入局。

在B端,百度文心智能體平臺(tái)、騰訊元器、訊飛星火智能體創(chuàng)作中心、通義智能體、字節(jié)扣子等面向企業(yè)用戶提供了智能體創(chuàng)建平臺(tái),并開始在其AI智能助手界面中添加AI Agent入口。

在C端,支付寶旗下AI App支小寶、智譜AutoGLM點(diǎn)燃了消費(fèi)者用戶的激情。根據(jù)演示,智譜AutoGLM能夠?yàn)g覽并理解屏幕信息,做出任務(wù)規(guī)劃,實(shí)現(xiàn)手機(jī)上常用操作的模擬執(zhí)行——只需接收簡(jiǎn)單的文字/語(yǔ)音指令,它就可以模擬人類操作手機(jī),在朋友圈點(diǎn)贊,在美團(tuán)點(diǎn)外賣,在攜程訂酒店等等。

冷靜的現(xiàn)實(shí):當(dāng)我們?cè)谡務(wù)揂I Agent時(shí),到底是在談?wù)撌裁矗?/h4>

如果只看到上述的熱鬧景象,你大概會(huì)得出結(jié)論——2024年是AI Agent的當(dāng)打之年。

但用戶能夠真正依賴的AI Agent,其實(shí)寥寥無(wú)幾。

只需花3秒鐘思考——你喜歡用哪幾款A(yù)I Agent?如果你是程序員,答案可能只是Cursor。如果我們換個(gè)問(wèn)題——你喜歡用哪幾款A(yù)I大模型?答案會(huì)五花八門,比如ChatGPT、Gemini、Claude、Kimi等等。

至少?gòu)膶?shí)感來(lái)說(shuō),目前大熱的AI Agent仍是“虛火”。

主因是“不靠譜”和“雞肋”。AI Agent依賴LLM“黑盒”,本身就存在不可預(yù)測(cè)性,而工作流程更是要將多個(gè)AI 步驟連接起來(lái),會(huì)加劇這些問(wèn)題,尤其是對(duì)于需要精確輸出的任務(wù)。用戶難以確保Agent能否始終提供準(zhǔn)確、符合上下文的響應(yīng)。

LangChain發(fā)布的State of AI Agents可以作為重要參考。其調(diào)查涉及的1300多位受訪者指出,性能質(zhì)量(41%)是首要關(guān)注點(diǎn),重要性遠(yuǎn)超成本(18.4%)和安全(18.4%)等因素。甚至對(duì)于向來(lái)格外關(guān)注成本的小企業(yè)而言,其中45.8%將性能質(zhì)量列為主要關(guān)注點(diǎn),成本因素僅為22.4%。同時(shí),報(bào)告指出,生產(chǎn)中采用AI Agents的主要挑戰(zhàn)包括:開發(fā)人員很難向團(tuán)隊(duì)和利益相關(guān)者解釋 AI Agent 的功能和行為。

此外,雖然AI Agent依賴的基座LLMs在Tool use方面表現(xiàn)不錯(cuò),但它們速度不快且成本高,特別是需要進(jìn)行循環(huán)和自動(dòng)重試時(shí)。WebArena 排行榜對(duì) LLM智能體在現(xiàn)實(shí)任務(wù)中的表現(xiàn)進(jìn)行了基準(zhǔn)測(cè)試。結(jié)果顯示,即便是表現(xiàn)最好的模型SteP,成功率也只有35.8%,而GPT-4的成功率僅達(dá)到14.9%。

那么,市面上不能“完全自理”的AI Agent算得上Agent嗎?

如果我們按吳恩達(dá)的思路就很好理解了——AI Agent是可以分層級(jí)的。他提出了Agentic System(智能體系統(tǒng)),并認(rèn)為形容詞“Agentic”比名詞“Agent”能更好地幫助我們理解這類智能體的本質(zhì)。如同自動(dòng)駕駛汽車L1-L4,Agent的進(jìn)化也是一個(gè)過(guò)程。

BabyAGI創(chuàng)始人Yohei Nakajima對(duì)于AI Agent的分類,同樣值得參考。

1、手工制作Agent:由 Prompt和API 調(diào)用組成的鏈條,具有一定自主性,但約束較多。

特征:流水線機(jī)器人,按照固定步驟完成任務(wù)。

舉例:它就像一個(gè)專門訂票的助手——當(dāng)你告訴航班需求時(shí),它能夠直接調(diào)用API搜索并完成預(yù)訂;然而一旦涉及復(fù)雜行程規(guī)劃,手工制作Agent就會(huì)“卡住”(歡迎大家代入產(chǎn)品)。

2、專業(yè)Agent:在一組任務(wù)類型和工具內(nèi)動(dòng)態(tài)決定要做什么,比手工制作Agent約束少。

特征:嫻熟工匠,能夠在特定領(lǐng)域(比如木工)熟練地使用工具,不僅能按照要求制作家具,還能根據(jù)實(shí)際需求調(diào)整設(shè)計(jì),調(diào)用材料。

舉例:AutoGPT通過(guò)CoT技術(shù)分解復(fù)雜問(wèn)題,動(dòng)態(tài)選擇最優(yōu)解決路徑。面對(duì)一個(gè)市場(chǎng)研究任務(wù),AutoGPT能自動(dòng)分解任務(wù)為“搜索趨勢(shì)”“整理數(shù)據(jù)”“生成報(bào)告”等子任務(wù)并完成。

3、通用Agent:Agent的AGI——目前還處于理論概念階段,尚未實(shí)現(xiàn)。

特征:全能助手,就像鋼鐵俠的Jarvis。你可以詢問(wèn)它任何問(wèn)題,它不僅能理解你的需求,還能結(jié)合知識(shí)和環(huán)境動(dòng)態(tài)適應(yīng),提供創(chuàng)新解決方案。

舉例:還沒有真正能實(shí)現(xiàn)的產(chǎn)品,相關(guān)研究包括更強(qiáng)的多模態(tài)交互和長(zhǎng)期記憶優(yōu)化。

處于當(dāng)前的歷史節(jié)點(diǎn),Prompt Agent數(shù)量最多,表現(xiàn)為大模型APP里的遍地Agent;垂直領(lǐng)域的專業(yè)Agent正處于爆點(diǎn),并因其實(shí)用性備受資本青睞;人類所期待的真正Agent——全能助手Jarvis,有待關(guān)鍵技術(shù)突破。這也意味著未來(lái)一段時(shí)間內(nèi),我們能看到更多“L1-L4”之間的技術(shù)進(jìn)化。

這一年AI Agent“皮下”技術(shù)進(jìn)化到哪兒了?

根據(jù)Lilian Weng列舉的公式:Agent = LLM+Memory+Planning skills+Tool use

假設(shè)你是黑暗料理界的“五虎星”。LLM代表你的知識(shí)儲(chǔ)備,包含所有菜系菜譜;Memory類似于你的廚師筆記,記錄著不同食客的口味需求,輸給“小當(dāng)家”的歷史教訓(xùn);Planning好比你的做菜規(guī)劃,面對(duì)不同要求,是先炸再烤,還是先煮再炸;Tools則是你的魔法廚具,包括如何調(diào)用不同刀具(軟件),幫助執(zhí)行復(fù)雜的任務(wù)。

AI Agent的突破取決于各項(xiàng)技術(shù)的進(jìn)步。

首先是LLM。在GPT5這樣的強(qiáng)悍“大腦”出現(xiàn)之前,OpenAI就發(fā)現(xiàn)了推理引擎的能力。

2024年10月,OpenAI高級(jí)研究科學(xué)家、德?lián)銩I之父Noam Brown提出:讓AI模型思考20秒所帶來(lái)的性能提升,相當(dāng)于將模型擴(kuò)大100,000倍并訓(xùn)練100,000倍的時(shí)間。

Brown所指的技術(shù)便是System 1/2 thinking,正是OpenAI o1長(zhǎng)出“推理能力”的秘訣。

System 1,即“快思考”,你看到一只蘋果,不需要思考,就知道這是水果;System 2,即“慢思考”,你要做一道17*24的數(shù)學(xué)題,則需拆解步驟來(lái)思考,答案才更準(zhǔn)確。

近期,谷歌DeepMind研究人員也將這項(xiàng)技術(shù)集成到AI Agent中,并開發(fā)了Talker-Reasoner框架。System 1是默認(rèn)運(yùn)行的“快速模式”,而System 2作為“備用引擎”隨時(shí)待命。當(dāng)System 1感到困惑時(shí),會(huì)將任務(wù)交給System 2處理。“雙引擎”共同運(yùn)行,對(duì)于解決復(fù)雜、冗長(zhǎng)的任務(wù)幫助巨大,突破了傳統(tǒng)AI Agent執(zhí)行業(yè)務(wù)流程的方法,極大提升了效率。

其次是記憶機(jī)制。當(dāng)生成式AI開始“胡言亂語(yǔ)”,或許不是性能問(wèn)題,而是記憶力不佳。這時(shí)候就需要RAG(檢索增強(qiáng)型生成)來(lái)幫忙。它是LLM“外掛”般的存在,能夠利用外部知識(shí)庫(kù)為L(zhǎng)LM提供相關(guān)上下文,防止LLM不懂裝懂。

然而,傳統(tǒng)RAG流程只考慮一個(gè)外部知識(shí)源,不能調(diào)用外部工具;僅生成一次性解決方案,上下文只檢索一次,不能進(jìn)行推理或驗(yàn)證。

在此情況下,融合Agent能力的RAG應(yīng)運(yùn)而生。雖然Agentic RAG在整體流程上與傳統(tǒng)RAG一脈相承:檢索-合成上下文-生成,但其融入了Agent自主規(guī)劃能力,能夠適應(yīng)更加復(fù)雜的RAG查詢?nèi)蝿?wù)——決定是否需要檢索;自主決策使用哪個(gè)檢索引擎自主規(guī)劃使用檢索引擎的步驟;評(píng)估檢索到的上下文,并決定是否重新檢索;自行規(guī)劃是否需要借助外部工具。

如果說(shuō),原始RAG是坐在圖書館查看特定問(wèn)題;那么,Agentic RAG就像拿著iPhone,調(diào)用Google瀏覽器、電子郵件等等搜索問(wèn)題。

此外,2024年YC孵化的開源Mem0項(xiàng)目,也有望成為RAG助手,并為AI Agent插上個(gè)性化記憶的翅膀。

Mem0像是大腦的“海馬體”,為L(zhǎng)LM提供了一個(gè)智能、自我優(yōu)化的記憶層。它能進(jìn)行信息分層存儲(chǔ)——將短時(shí)信息轉(zhuǎn)化為長(zhǎng)期記憶。類似于,你會(huì)整理“新學(xué)知識(shí)”,而后存入腦海;它還能建立語(yǔ)義鏈接——通過(guò)語(yǔ)義分析為存儲(chǔ)的知識(shí)創(chuàng)建關(guān)聯(lián)網(wǎng)絡(luò)。類似于,你告訴 AI自己喜歡看偵探電影,它不僅能記住,還會(huì)推測(cè)你可能喜歡的犯罪紀(jì)錄片。

基于此,Mem0能夠顯著提升AI Agent個(gè)性化記憶——?jiǎng)討B(tài)記錄用戶偏好、行為和需求,創(chuàng)建“私人記事本”。例如,當(dāng)你告訴AI Agent下周是媽媽生日,它不僅會(huì)及時(shí)提醒你送上祝福,還會(huì)根據(jù)“記憶中”你和媽媽的喜好,給出送禮建議,甚至能夠跨平臺(tái)“貨比三家”,奉上購(gòu)物鏈接。

在RAG方面的突破不止于此,俄亥俄州立大學(xué)和斯坦福大學(xué)的科學(xué)家團(tuán)隊(duì)提出了一個(gè)有趣的思路:讓AI擁有一個(gè)類似人類海馬體的“記憶大腦”。他們從神經(jīng)科學(xué)的角度出發(fā),模仿人腦海馬體在長(zhǎng)期記憶中的作用,設(shè)計(jì)出一個(gè)名為HippoRAG的模型,像人腦一樣高效地整合和搜索知識(shí)。實(shí)驗(yàn)表明,“記憶大腦”能夠在多跳問(wèn)答等需要知識(shí)整合的任務(wù)上取得大幅提升。或許探索出讓大模型具備“類人”記憶的一個(gè)全新方向。

Tool use的進(jìn)步更是肉眼看見。例如,Claude的Computer Use,通過(guò)構(gòu)建API,將自然語(yǔ)言提示轉(zhuǎn)化為各種電腦操作指令,由開發(fā)者自動(dòng)化重復(fù)性的任務(wù)、進(jìn)行測(cè)試和質(zhì)量保證,以及開放式研究。從此,AI不需要一個(gè)個(gè)專門的API“鑰匙”也能“一次性”調(diào)用各種軟件完成各種操作:用Word寫文檔,用Excel處理表格,用瀏覽器搜索信息。雖然如此,目前Computer Use能力還不完善:不能在內(nèi)部數(shù)據(jù)上訓(xùn)練該功能;受限于上下文窗口等等。Anthropic團(tuán)隊(duì)也表示,現(xiàn)在Claude的計(jì)算機(jī)使用水平只處于類似“GPT-3 時(shí)代”的早期階段,未來(lái)還有很大提升空間。

值得注意的是,AI Agent的視覺能力也取得了進(jìn)步。例如,智譜發(fā)布的 GLM-PC 將其通用的視覺-操作模型 CogAgent 應(yīng)用到了計(jì)算機(jī)上。其能夠模擬人類的視覺感知來(lái)從環(huán)境中獲取信息輸入,以進(jìn)行進(jìn)一步的推理和決策。

規(guī)劃能力方面。Planning包含任務(wù)分解——將大任務(wù)劃分成小任務(wù);反思和提煉——基于已有動(dòng)作進(jìn)行自我反思,從錯(cuò)誤中學(xué)習(xí)優(yōu)化接下來(lái)的動(dòng)作。

目前,有論文提出更為新穎的分類法:任務(wù)分解、多計(jì)劃選擇、外部模塊輔助規(guī)劃、反思與細(xì)化、記憶增強(qiáng)規(guī)劃。其中,多計(jì)劃選擇,即給AI Agent一個(gè)“選擇輪”,生成多個(gè)計(jì)劃,挑一個(gè)最好的來(lái)執(zhí)行;外部模塊輔助規(guī)劃,即借助外部規(guī)劃器,類似強(qiáng)化學(xué)習(xí)的判官。記憶增強(qiáng)規(guī)劃,就像 一個(gè)記憶面包,記住過(guò)去經(jīng)驗(yàn),為將來(lái)規(guī)劃提供幫助。這些方法并不孤立,而是相互交織,共同提升AI Agent的規(guī)劃能力。

一年以來(lái),Agent“皮下”各項(xiàng)能力均取得了進(jìn)步,其中Tool use能力已經(jīng)初步落地;記憶機(jī)制的進(jìn)步非常值得期待;LLMs的進(jìn)步則取決于巨頭的能力邊界等等。但對(duì)于Agent而言,其能力的最大化并非各項(xiàng)技術(shù)簡(jiǎn)單的加成,任何一項(xiàng)技術(shù)的突破均有望使其迎來(lái)質(zhì)變。

未來(lái),AI Agent進(jìn)化的重要挑戰(zhàn)包括但不限于:如何實(shí)現(xiàn)低延遲、帶視覺理解的實(shí)時(shí)反饋;如何構(gòu)建個(gè)性化的記憶系統(tǒng);如何在虛擬與物理環(huán)境都具備魯棒的執(zhí)行能力等等。只有當(dāng)AI Agent從“工具”到“工具使用者”時(shí),真正的Killer Agent就會(huì)出現(xiàn)。

資本的選擇——大模型遇冷,AI Agent當(dāng)立

有人說(shuō),現(xiàn)在大模型卷不動(dòng)了,要卷就卷AI Agent。

2024年,曾經(jīng)爭(zhēng)做“做中國(guó)OpenAI”的大模型公司不得已食言,以“六小虎”智譜AI、零一萬(wàn)物、百川智能、MiniMax、月之暗面和階躍星辰為例,多數(shù)公司已經(jīng)開始進(jìn)行業(yè)務(wù)調(diào)整,甚至人員縮減。大廠憑借其雄厚的家底,還能繼續(xù)卷研發(fā);更多初創(chuàng)企業(yè)被迫直面現(xiàn)實(shí),轉(zhuǎn)向大模型應(yīng)用層面,尋求更低的成本和更快的回報(bào)。

同時(shí),敏銳的資本也將目光投向了AI應(yīng)用層。

桔子IT數(shù)據(jù)顯示,2024年前9個(gè)月,國(guó)內(nèi)AI領(lǐng)域發(fā)生了317起融資案例,月均融資金額42億元,不到去年的兩成。其中,融資最多的5家公司拿走了超212億,相當(dāng)于今年國(guó)內(nèi)AI融資總額的63%。

值得注意的是,大模型和AI Agent項(xiàng)目受投資人的關(guān)注度最高——大模型發(fā)生19起融資案,AI Agent發(fā)生了18起。其次是AI視頻生成(10%),剩下50%投資案例的方向較為分散,被19個(gè)方向瓜分。

由此,在大模型“贏家通吃”的局勢(shì)下,AI Agent既是AI初創(chuàng)公司的最佳方向,也是海內(nèi)外資本的篤定之選。

YC合伙人、資深投資人Jared指出,垂直領(lǐng)域 AI Agent 作為一種新興B2B 軟件,有望成為比SaaS大10倍的新興市場(chǎng)。憑借替代人工操作、提升效率的顯著優(yōu)勢(shì),這一領(lǐng)域可能催生出市值超過(guò)3000億美元的科技巨頭。

投資人所看中的AI Agent都長(zhǎng)什么樣?

最出圈的當(dāng)屬AI編程神器Cursor。原因不外于代碼是LLMs最容易掌握的能力,其生成的訓(xùn)練數(shù)據(jù)主要來(lái)自GitHub上的開源代碼,大部分都是“有效數(shù)據(jù)”。此前,Cursor是根據(jù)用戶需求,提供建議代碼。如今,Cursor可以直接以實(shí)現(xiàn)需求為目的,一口氣幫助你創(chuàng)造代碼文件,準(zhǔn)備好運(yùn)行環(huán)境。你只需點(diǎn)擊啟動(dòng)按鈕,就可以運(yùn)行代碼。

除此之外,即便2024年尚未產(chǎn)生真正的Killer Agent,但實(shí)際上在細(xì)分領(lǐng)域,Agent已經(jīng)有遍地開花之勢(shì)了。

根據(jù)YC團(tuán)隊(duì)的最新分享。目前已經(jīng)獲得投資的Agent項(xiàng)目大多在toB領(lǐng)域。

問(wèn)卷調(diào)查和分析:Outset將 AI Agent應(yīng)用于問(wèn)卷調(diào)查和分析領(lǐng)域,可以替代傳統(tǒng)的人工調(diào)查和分析工作,例如 Qualtrics等公司提供的服務(wù)。

軟件質(zhì)量測(cè)試:Mtic利用 AI Agent進(jìn)行軟件質(zhì)量測(cè)試,可以完全取代傳統(tǒng)的 QA 測(cè)試團(tuán)隊(duì)。與之前的 QA 軟件即服務(wù)公司(如 Rainforest QA)不同,Mtic不僅提高了QA 團(tuán)隊(duì)的效率,還能完全取代人工測(cè)試。

政府合同競(jìng)標(biāo):Sweet Spot利用 AI Agent自動(dòng)搜索、填寫政府合同的標(biāo)書,可以替代人工完成這些繁瑣的任務(wù)。

客戶支持:Powerhelp利用 AI Agent,自動(dòng)完成人工接聽電話、回復(fù)郵件和解決問(wèn)題,并且能夠根據(jù)用戶提問(wèn)和歷史記錄提供個(gè)性化的解決方案,提升其滿意度。

人才招聘:Priora和Nico,利用 AI Agent進(jìn)行技術(shù)篩選和初步招聘,可以替代人工完成這些任務(wù)。

用吳恩達(dá)的發(fā)言做總結(jié):通往 AGI 的道路感覺更像是一段旅程,而不是一個(gè)目的地。但我認(rèn)為Agent式工作流,可以幫助我們?cè)谶@個(gè)非常漫長(zhǎng)的旅程中向前邁進(jìn)一小步。換句話說(shuō),即便我們暫時(shí)無(wú)法擁有“全能Agent”,但多個(gè)垂直領(lǐng)域的專業(yè)Agent逐漸出現(xiàn),將讓我們不斷獲得近似擁有Jarvis的體驗(yàn)。

2025年:有望成為AI Agent商用爆發(fā)元年

近日,前OpenAI聯(lián)創(chuàng)、SSI創(chuàng)始人 Ilya Sutskever直接宣布:預(yù)訓(xùn)練從此將徹底終結(jié)——我們只有一個(gè)互聯(lián)網(wǎng),訓(xùn)練模型需要的海量數(shù)據(jù)即將枯竭,唯有從現(xiàn)有數(shù)據(jù)中尋找新的突破,AI才會(huì)繼續(xù)發(fā)展。

Sutskever用人類大腦發(fā)展進(jìn)行類比:正如人類大腦體積停止生長(zhǎng)后,人類智慧仍在進(jìn)步。AI未來(lái)發(fā)展將轉(zhuǎn)向在現(xiàn)有LLM上構(gòu)建 AI Agent和工具。他預(yù)測(cè),以后的突破點(diǎn),就在于智能體(Agentic)、合成數(shù)據(jù)和推理時(shí)計(jì)算。其中,能夠自主完成任務(wù)的AI Agent,是未來(lái)的發(fā)展方向。

值得注意的是,與吳恩達(dá)一樣,Sutskever同樣使用“形容詞”Agentic描述智能體。

根據(jù)線性資本Bolt觀點(diǎn):我們可以用少量的、適量的、高度的Agentic“能力”描述Agent應(yīng)用的能力。例如,Router(路由)類系統(tǒng)使用LLM將輸入路由到特定的下游工作流中,具有少量的Agentic能力;State Machine(狀態(tài)機(jī))類系統(tǒng)使用多個(gè)LLMs來(lái)執(zhí)行多個(gè)路由步驟并且有能力確定每個(gè)步驟是繼續(xù)還是完成,具有相當(dāng)?shù)腁gentic能力;而Autonomous(自主體)類系統(tǒng)更進(jìn)一步,能夠使用工具甚至創(chuàng)造合適的工具去推進(jìn)系統(tǒng)的進(jìn)一步?jīng)Q策,具備完全的Agentic能力。

基于此,廠商在強(qiáng)調(diào)產(chǎn)品的Agent屬性前,不妨先回答“How agentic my system is?”

當(dāng)前不少領(lǐng)域的專業(yè)AI Agent依然不夠成熟。相關(guān)調(diào)查顯示,輸出不精確、性能差強(qiáng)人意、用戶不信任等問(wèn)題困擾其落地。但如果我們換個(gè)思路:短期內(nèi)商業(yè)化最成功的AI Agent,不一定是看起來(lái)“Agentic化”最高的產(chǎn)品;而是能夠平衡性能、可靠性,以及用戶信任的產(chǎn)品。

順著這條思路,專業(yè)AI Agent最有前途的發(fā)展道路可能是:先重點(diǎn)應(yīng)放在利用AI增強(qiáng)現(xiàn)有工具,而不是提供廣泛的全自主獨(dú)立服務(wù)。

用人機(jī)協(xié)同的方法,讓人類參與監(jiān)督和處理邊緣案例。根據(jù)當(dāng)前的能力和局限,設(shè)定不脫離現(xiàn)實(shí)的期望。通過(guò)結(jié)合嚴(yán)格約束的LLMs、良好的評(píng)估數(shù)據(jù)、人機(jī)協(xié)同監(jiān)督和傳統(tǒng)工程方法,在自動(dòng)化等復(fù)雜任務(wù)方面實(shí)現(xiàn)可靠且良好的效果。

例如,紅杉投資組合中的Rocks公司,其Agent是將人類員工融入其中。最初,Rocks開發(fā)了一項(xiàng)自動(dòng)撰寫、自動(dòng)發(fā)送電子郵件的技術(shù)。但他們發(fā)現(xiàn)將人類銷售納入流程時(shí),表現(xiàn)提升了333倍。于是,Rocks移除了自動(dòng)發(fā)送的功能。

根據(jù)具體業(yè)務(wù)場(chǎng)景,有些公司可以開發(fā)Agent完成任務(wù)的技術(shù),比如網(wǎng)絡(luò)安全領(lǐng)域的Expo;而有些公司則盡量選擇用Agent“增強(qiáng)”人類員工,比如Rocks。

那么,2025年會(huì)發(fā)生什么?

首先,不止是編程,更多垂直領(lǐng)域?qū)⑴艹觥胺N子選手”。紅杉合伙人 Konstantine Buhler預(yù)測(cè):醫(yī)療和教育等“高服務(wù)成本”領(lǐng)域?qū)⒊蔀?AI 技術(shù)的下一個(gè)重要戰(zhàn)場(chǎng)。

同時(shí),根據(jù)LangChain報(bào)告顯示:人們希望將耗時(shí)任務(wù)交給AI Agent——充當(dāng)“知識(shí)過(guò)濾器”:快速提煉關(guān)鍵信息,用戶無(wú)需自己手動(dòng)篩選海量數(shù)據(jù);“生產(chǎn)力加速器”:協(xié)助用戶安排日程、管理任務(wù),讓人類專注于更重要的工作;“客服神助攻”:幫助企業(yè)更快地處理客戶咨詢、解決問(wèn)題,大幅提升團(tuán)隊(duì)的響應(yīng)速度。

換句話說(shuō),所有耗時(shí)、耗力、耗成本的工作有望率先被垂直領(lǐng)域?qū)I(yè)AI Agent替代。

其次,AI Agent部署將由“單”變“多”。一方面,AI Agent將從單一智能體發(fā)展到“群體協(xié)作”模式。2025年會(huì)出現(xiàn)更多Multi-agent模式,多個(gè)Agent 扮演不同角色合作完成任務(wù)。例如,清華面壁智能的開源項(xiàng)目ChatDev。每個(gè) Agent 被賦予了不同的身份,有的是 CEO,有的是產(chǎn)品經(jīng)理,有的是程序員,它們能夠彼此互相合作,共同完成任務(wù)。

另一方面,隨著?模型對(duì)圖像和視頻信息的處理能?快速提升,2025年將開始出現(xiàn)更為綜合性的多模態(tài)交互,AI能夠通過(guò)物聯(lián)?、特定信息等多種感知通道進(jìn)?協(xié)同。多模態(tài)輸?和輸出使AI交互性更強(qiáng)、交互頻次更?,適?場(chǎng)景也更加豐富,AI產(chǎn)品整體?平顯著提升。

其中,Agent作為融合感知、分析、決策和執(zhí)?能?的智能體,其交互的主動(dòng)性和?動(dòng)化遠(yuǎn)超現(xiàn)有工具。

根據(jù)量子位智庫(kù)觀察:從技術(shù)和配套設(shè)施兩??發(fā)展來(lái)看,從2025年開始,AI Agent即將?泛投?使?。AI Agent有望帶來(lái)獨(dú)屬于AI 2.0時(shí)代的交互?式、產(chǎn)品形態(tài)和商業(yè)模式。

結(jié)語(yǔ)

在電影《2001:太空漫游》的開頭,一群草食人猿掙扎在饑餓和死亡的邊緣,人猿首領(lǐng)偶然揮舞了一下手里的棒骨,“發(fā)現(xiàn)”它居然是一件趁手的工具。從此,他們開始狩獵小動(dòng)物,成為食肉動(dòng)物,逐步站上了食物鏈頂端。

如果未來(lái)的人類俯瞰2025年,可能會(huì)發(fā)現(xiàn),這又是一個(gè)人類進(jìn)化的關(guān)鍵時(shí)刻,而AI Agent正是那根趁手的“棒骨”。

正如Andrej Karpathy所言,AI Agent代表著一個(gè)瘋狂的未來(lái)。

有趣的是,Agent一詞源于拉丁語(yǔ)的Agere,意思是“to do”。

如何抓住這個(gè)瘋狂的未來(lái)?你可能只需要“Agent”。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。
主站蜘蛛池模板: 治多县| 巨野县| 海南省| 赞皇县| 舒兰市| 夹江县| 杭州市| 山东省| 清水河县| 上虞市| 南昌县| 长葛市| 泸州市| 剑河县| 凯里市| 江北区| 汝城县| 英山县| 武汉市| 开封市| 柏乡县| 台北市| 九寨沟县| 三台县| 汤原县| 临海市| 辽宁省| 隆安县| 永康市| 琼结县| 尉氏县| 敖汉旗| 镇原县| 孟津县| 温泉县| 隆子县| 新野县| 滦南县| 高唐县| 石景山区| 兴业县|