2023年底,斯坦福大学发布了一款引发轰动的AI实验项目——“小镇模拟游戏 ”。在这个虚拟小镇里 ,25个AI角色能够自主交谈 、建立关系、制定计划,展现出了令人惊叹的社交能力 。这个实验让人们第一次对AI Agent(智能体)产生了期待——具有自主意识和决策能力的AI助手指日可待。
一年过去了,AI Agent的概念在业界炙手可热。微软、Google等科技巨头纷纷布局 ,初创公司们也争相推出各类“Agent”产品 。当我们仔细观察这些号称是“Agent”的产品时,会发现一个尴尬的现实:它们与真正的Agent相去甚远,更像是仅仅具备自然语言理解能力的对话机器人。
这种“形似神不似 ”的现象 ,在AI硬件领域也不断上演。2024年10月,智能戒指品牌Oura推出了最新款Oura Ring 4,并“识时务”地加入了AI功能 。很快 ,Oura估值超50亿美金,成为了商业化最成功的“AI硬件”厂商之一。一个共识是:Oura的成功与AI关系并不大,其核心价值仍在于健康追踪这一基础功能。相比之下,真正主打AI的硬件产品 ,如AI Pin 、Rabbit R1却遭遇了“上市即翻车 ”的命运 。
什么称得上AI Agent?随手打开一个大模型APP,映入眼帘的Prompt Agent?还是编程领域的专业 Agent Cursor?亦或是钢铁侠的全能助手Jarvis?
美国VC Madrona合伙人Jon Turow曾指出:当你聊过足够多的从业者,你会发现有一系列不同概念的东西 ,它们都叫做Agent 。
如果将AI Agent形容为一场马拉松,2025年的AI Agent行至何处?
一、2024年AI Agent观察:一半是海水,一半是火焰
热闹的景象:各路玩家就位
2024上半年 ,大模型价格战还在轰轰烈烈进行;下半年,AI Agent争夺战就已经蓄势待发。
海外市场,OpenAI、Anthropic 、微软、谷歌等科技巨头纷纷公布相关进展 ,将自家Agent实力当作牌桌上的重要筹码。
10月,Anthropic推出了名为“Computer Use”的AI Agent系统,号称能够“像人一样操作计算机” 。这是一个特殊API ,允许开发者指导Claude完成各种计算机操作任务——观察屏幕内容、移动鼠标 、点击按钮以及打字等等。开发者可以通过该API将书面指令转换为具体的计算机指令,从而实现自动化任务。
(图片:Anthropic开发人员演示Computer use)
微软也是AI Agent的重要推动者 。2024年10 月,微软公布了一项重要计划:面向 Dynamics 365业务应用平台,开发部署10款AI Agent——将主要服务于企业的销售环节、会计业务以及客户服务等关键领域。按照时间表 ,这些AI Agent将在年底开放公测,测试阶段预计延续到 2025 年初期。
(图片:微软CEO展示Copilot与AI堆栈)
谷歌的反应相对较慢,但在年底也赶上了进度 。12月 ,谷歌发布了全新多模态大模型Gemini 2.0。在新模型的加持下,谷歌内置了三款AI Agent——“通用大模型助手 ”Project Astra、“浏览器助手”Project Mariner 和“编程助手”Jules。
“编程助手”Jules能够作为自主代理直接集成到GitHub的工作流程系统中,分析复杂的代码库 ,跨多个文件实施修复,并准备详细的拉取请求,无需持续的人工监督;而在游戏《部落冲突》演示中 ,谷歌AI Agent不仅能够向玩家介绍兵种特性,给出组合建议,还可以在Reddit检索信息 ,为玩家提供角色选择建议 。
(图片:玩家与谷歌AI Agent互动)
OpenAI虽然是基础模型的领先者,在Agent方面布局却略显迟缓。7月,OpenAI更新AGI路线图,并指出自己处于第一层 ,接近达到第二层;而第三层才是AI Agent。
OpenAI预计将于2025年1月推出全新AI Agent——Operator,该系统能够自动执行各种复杂操作,包括编写代码、预订旅行 、自动电商购物等 。据悉 ,Operator可能会在Computer use的基础上进行大幅度创新和应用简化,扩大AI Agent的使用范围和应用场景。
国内市场,百度、阿里、腾讯 、智谱等大厂也纷纷入局。
在B端 ,百度文心智能体平台、腾讯元器、讯飞星火智能体创作中心 、通义智能体、字节扣子等面向企业用户提供了智能体创建平台,并开始在其AI智能助手界面中添加AI Agent入口。
在C端,支付宝旗下AI App支小宝、智谱AutoGLM点燃了消费者用户的激情 。根据演示 ,智谱AutoGLM能够浏览并理解屏幕信息,做出任务规划,实现手机上常用操作的模拟执行——只需接收简单的文字/语音指令 ,它就可以模拟人类操作手机,在朋友圈点赞,在美团点外卖,在携程订酒店等等。
冷静的现实:当我们在谈论AI Agent时 ,到底是在谈论什么?
如果只看到上述的热闹景象,你大概会得出结论——2024年是AI Agent的当打之年。
但用户能够真正依赖的AI Agent,其实寥寥无几 。
只需花3秒钟思考——你喜欢用哪几款AI Agent?如果你是程序员 ,答案可能只是Cursor。如果我们换个问题——你喜欢用哪几款AI大模型?答案会五花八门,比如ChatGPT 、Gemini、Claude、Kimi等等。
至少从实感来说,目前大热的AI Agent仍是“虚火 ” 。
主因是“不靠谱”和“鸡肋”。AI Agent依赖LLM“黑盒 ” ,本身就存在不可预测性,而工作流程更是要将多个AI步骤连接起来,会加剧这些问题 ,尤其是对于需要精确输出的任务。用户难以确保Agent能否始终提供准确 、符合上下文的响应 。
LangChain发布的State of AI Agents可以作为重要参考。其调查涉及的1300多位受访者指出,性能质量(41%)是首要关注点,重要性远超成本(18.4%)和安全(18.4%)等因素。甚至对于向来格外关注成本的小企业而言 ,其中45.8%将性能质量列为主要关注点,成本因素仅为22.4% 。报告指出,生产中采用AI Agents的主要挑战包括:开发人员很难向团队和利益相关者解释AI Agent的功能和行为。
虽然AI Agent依赖的基座LLMs在Tool use方面表现不错,但它们速度不快且成本高 ,特别是需要进行循环和自动重试时。WebArena 排行榜对 LLM智能体在现实任务中的表现进行了基准测试。结果显示,即便是表现最好的模型SteP,成功率也只有35.8% ,而GPT-4的成功率仅达到14.9% 。
那么,市面上不能“完全自理”的AI Agent算得上Agent吗?
如果我们按吴恩达的思路就很好理解了——AI Agent是可以分层级的。他提出了Agentic System(智能体系统),并认为形容词“Agentic”比名词“Agent ”能更好地帮助我们理解这类智能体的本质。如同自动驾驶汽车L1—L4 ,Agent的进化也是一个过程 。
BabyAGI创始人Yohei Nakajima对于AI Agent的分类,同样值得参考:
①手工制作Agent:由Prompt和API调用组成的链条,具有一定自主性 ,但约束较多。
特征:流水线机器人,按照固定步骤完成任务。
举例:它就像一个专门订票的助手——当你告诉航班需求时,它能够直接调用API搜索并完成预订;然而一旦涉及复杂行程规划 ,手工制作Agent就会“卡住”(欢迎大家代入产品) 。
②专业Agent:在一组任务类型和工具内动态决定要做什么,比手工制作Agent约束少。
特征:娴熟工匠,能够在特定领域(比如木工)熟练地使用工具,不仅能按照要求制作家具 ,还能根据实际需求调整设计,调用材料。
举例:AutoGPT通过CoT技术分解复杂问题,动态选择最优解决路径 。面对一个市场研究任务 ,AutoGPT能自动分解任务为“搜索趋势”“整理数据 ”“生成报告”等子任务并完成。
③通用Agent:Agent的AGI——目前还处于理论概念阶段,尚未实现。
特征:全能助手,就像钢铁侠的Jarvis 。你可以询问它任何问题 ,它不仅能理解你的需求,还能结合知识和环境动态适应,提供创新解决方案。
举例:还没有真正能实现的产品 ,相关研究包括更强的多模态交互和长期记忆优化。
处于当前的历史节点,Prompt Agent数量最多,表现为大模型APP里的遍地Agent;垂直领域的专业Agent正处于爆点 ,并因其实用性备受资本青睐;人类所期待的真正Agent——全能助手Jarvis,有待关键技术突破。这也意味着未来一段时间内,我们能看到更多“L1—L4”之间的技术进化 。
这一年AI Agent“皮下 ”技术进化到哪儿了?
根据Lilian Weng列举的公式:Agent = LLM + Memory + Planning skills + Tool use。
假设你是黑暗料理界的“五虎星”。LLM代表你的知识储备,包含所有菜系菜谱;Memory类似于你的厨师笔记 ,记录着不同食客的口味需求,输给“小当家”的历史教训;Planning好比你的做菜规划,面对不同要求 ,是先炸再烤,还是先煮再炸;Tools则是你的魔法厨具,包括如何调用不同刀具(软件) ,帮助执行复杂的任务 。
AI Agent的突破取决于各项技术的进步。
首先是LLM。在GPT5这样的强悍“大脑”出现之前,OpenAI就发现了推理引擎的能力 。
2024年10月,OpenAI高级研究科学家、德扑AI之父Noam Brown提出:让AI模型思考20秒所带来的性能提升 ,相当于将模型扩大十万倍并训练十万倍的时间。
Brown所指的技术便是System 1/2 thinking,正是OpenAI o1长出“推理能力 ”的秘诀。
System 1,即“快思考” ,你看到一只苹果,不需要思考,就知道这是水果;System 2,即“慢思考” ,你要做一道17*24的数学题,则需拆解步骤来思考,答案才更准确 。
近期 ,谷歌DeepMind研究人员也将这项技术集成到AI Agent中,并开发了Talker-Reasoner框架。System 1是默认运行的“快速模式 ”,而System 2作为“备用引擎”随时待命。当System 1感到困惑时 ,会将任务交给System 2处理 。“双引擎”共同运行,对于解决复杂、冗长的任务帮助巨大,突破了传统AI Agent执行业务流程的方法 ,极大提升了效率。
其次是记忆机制。当生成式AI开始“胡言乱语 ”,或许不是性能问题,而是记忆力不佳。这时候就需要RAG(检索增强型生成)来帮忙 。它是LLM“外挂”般的存在 ,能够利用外部知识库为LLM提供相关上下文,防止LLM不懂装懂。
传统RAG流程只考虑一个外部知识源,不能调用外部工具;仅生成一次性解决方案,上下文只检索一次 ,不能进行推理或验证。
在此情况下,融合Agent能力的RAG应运而生 。虽然Agentic RAG在整体流程上与传统RAG一脉相承:检索-合成上下文-生成,但其融入了Agent自主规划能力 ,能够适应更加复杂的RAG查询任务——决定是否需要检索;自主决策使用哪个检索引擎自主规划使用检索引擎的步骤;评估检索到的上下文,并决定是否重新检索;自行规划是否需要借助外部工具。
如果说,原始RAG是坐在图书馆查看特定问题;那么 ,Agentic RAG就像拿着iPhone,调用Google浏览器、电子邮件等等搜索问题。
2024年YC孵化的开源Mem0项目,也有望成为RAG助手 ,并为AI Agent插上个性化记忆的翅膀 。
Mem0像是大脑的“海马体”,为LLM提供了一个智能 、自我优化的记忆层。它能进行信息分层存储——将短时信息转化为长期记忆。类似于,你会整理“新学知识 ” ,而后存入脑海;它还能建立语义链接——通过语义分析为存储的知识创建关联网络 。类似于,你告诉AI自己喜欢看侦探电影,它不仅能记住,还会推测你可能喜欢的犯罪纪录片。
基于此 ,Mem0能够显著提升AI Agent个性化记忆——动态记录用户偏好、行为和需求,创建“私人记事本”。例如,当你告诉AI Agent下周是妈妈生日 ,它不仅会及时提醒你送上祝福,还会根据“记忆中”你和妈妈的喜好,给出送礼建议 ,甚至能够跨平台“货比三家 ”,奉上购物链接 。
在RAG方面的突破不止于此,俄亥俄州立大学和斯坦福大学的科学家团队提出了一个有趣的思路:让AI拥有一个类似人类海马体的“记忆大脑”。他们从神经科学的角度出发 ,模仿人脑海马体在长期记忆中的作用,设计出一个名为HippoRAG的模型,像人脑一样高效地整合和搜索知识。实验表明 ,“记忆大脑”能够在多跳问答等需要知识整合的任务上取得大幅提升。或许探索出让大模型具备“类人”记忆的一个全新方向 。
Tool use的进步更是肉眼看见。例如,Claude的Computer Use,通过构建API,将自然语言提示转化为各种电脑操作指令 ,由开发者自动化重复性的任务、进行测试和质量保证,以及开放式研究。从此,AI不需要一个个专门的API“钥匙 ”也能“一次性”调用各种软件完成各种操作:用Word写文档 ,用Excel处理表格,用浏览器搜索信息 。
虽然如此,目前Computer Use能力还不完善:不能在内部数据上训练该功能;受限于上下文窗口等等。Anthropic团队也表示 ,现在Claude的计算机使用水平只处于类似“GPT-3 时代”的早期阶段,未来还有很大提升空间。
值得注意的是,AI Agent的视觉能力也取得了进步 。例如 ,智谱发布的GLM-PC将其通用的视觉-操作模型CogAgent应用到了计算机上。其能够模拟人类的视觉感知来从环境中获取信息输入,以进行进一步的推理和决策。
规划能力方面,Planning包含任务分解——将大任务划分成小任务;反思和提炼——基于已有动作进行自我反思 ,从错误中学习优化接下来的动作 。
目前,有论文提出更为新颖的分类法:任务分解 、多计划选择、外部模块辅助规划、反思与细化 、记忆增强规划。其中,多计划选择,即给AI Agent一个“选择轮 ” ,生成多个计划,挑一个最好的来执行;外部模块辅助规划,即借助外部规划器 ,类似强化学习的判官。记忆增强规划,就像一个记忆面包,记住过去经验 ,为将来规划提供帮助 。这些方法并不孤立,而是相互交织,共同提升AI Agent的规划能力。
一年以来 ,Agent“皮下”各项能力均取得了进步,其中Tool use能力已经初步落地;记忆机制的进步非常值得期待;LLMs的进步则取决于巨头的能力边界等等。但对于Agent而言,其能力的最大化并非各项技术简单的加成 ,任何一项技术的突破均有望使其迎来质变。
未来,AI Agent进化的重要挑战包括但不限于:如何实现低延迟、带视觉理解的实时反馈;如何构建个性化的记忆系统;如何在虚拟与物理环境都具备鲁棒的执行能力等等 。只有当AI Agent从“工具”到“工具使用者 ”时,真正的Killer Agent才会出现。
二、资本的选择:大模型遇冷,AI Agent当立
有人说 ,现在大模型卷不动了,要卷就卷AI Agent。
2024年,曾经争做“中国OpenAI”的大模型公司不得已食言 ,以“六小虎”智谱AI 、零一万物、百川智能、MiniMax 、月之暗面和阶跃星辰为例,多数公司已经开始进行业务调整,甚至人员缩减 。大厂凭借其雄厚的家底 ,还能继续卷研发;更多初创企业被迫直面现实,转向大模型应用层面,寻求更低的成本和更快的回报。
敏锐的资本也将目光投向了AI应用层。
桔子IT数据显示 ,2024年前9个月,国内AI领域发生了317起融资案例,月均融资金额42亿元 ,不到去年的两成 。其中,融资最多的5家公司拿走了超212亿,相当于今年国内AI融资总额的63%。
值得注意的是,大模型和AI Agent项目受投资人的关注度最高——大模型发生19起融资案 ,AI Agent发生了18起。其次是AI视频生成(10%),剩下50%投资案例的方向较为分散,被19个方向瓜分 。
由此 ,在大模型“赢家通吃 ”的局势下,AI Agent既是AI初创公司的最佳方向,也是海内外资本的笃定之选。
YC合伙人、资深投资人Jared指出 ,垂直领域AI Agent作为一种新兴B2B软件,有望成为比SaaS大10倍的新兴市场。凭借替代人工操作、提升效率的显著优势,这一领域可能催生出市值超过3000亿美元的科技巨头 。
投资人所看中的AI Agent都长什么样?
最出圈的当属AI编程神器Cursor。原因不外于代码是LLMs最容易掌握的能力 ,其生成的训练数据主要来自GitHub上的开源代码,大部分都是“有效数据”。此前,Cursor是根据用户需求 ,提供建议代码。如今,Cursor可以直接以实现需求为目的,一口气帮助你创造代码文件,准备好运行环境 。你只需点击启动按钮 ,就可以运行代码。
除此之外,即便2024年尚未产生真正的Killer Agent,但实际上在细分领域 ,Agent已经有遍地开花之势了。
根据YC团队的最新分享 。目前已经获得投资的Agent项目大多在toB领域。
问卷调查和分析:Outset将AI Agent应用于问卷调查和分析领域,可以替代传统的人工调查和分析工作,例如Qualtrics等公司提供的服务。
软件质量测试:Mtic利用 AI Agent进行软件质量测试 ,可以完全取代传统的QA测试团队 。与之前的QA软件即服务公司(如Rainforest QA)不同,Mtic不仅提高了QA团队的效率,还能完全取代人工测试。
政府合同竞标:Sweet Spot利用AI Agent自动搜索、填写政府合同的标书 ,可以替代人工完成这些繁琐的任务。
客户支持:Powerhelp利用AI Agent,自动完成人工接听电话 、回复邮件和解决问题,并且能够根据用户提问和历史记录提供个性化的解决方案 ,提升其满意度 。
人才招聘:Priora和Nico,利用AI Agent进行技术筛选和初步招聘,可以替代人工完成这些任务。
用吴恩达的发言做总结:通往AGI的道路感觉更像是一段旅程,而不是一个目的地。但我认为Agent式工作流 ,可以帮助我们在这个非常漫长的旅程中向前迈进一小步 。换句话说,即便我们暂时无法拥有“全能Agent”,但多个垂直领域的专业Agent逐渐出现 ,将让我们不断获得近似拥有Jarvis的体验。
三、2025年:有望成为AI Agent商用爆发元年
近日,前OpenAI联创、SSI创始人Ilya Sutskever直接宣布:预训练从此将彻底终结——我们只有一个互联网,训练模型需要的海量数据即将枯竭 ,唯有从现有数据中寻找新的突破,AI才会继续发展。
Sutskever用人类大脑发展进行类比:正如人类大脑体积停止生长后,人类智慧仍在进步。AI未来发展将转向在现有LLM上构建AI Agent和工具 。他预测 ,以后的突破点,就在于智能体(Agentic) 、合成数据和推理式计算。其中,能够自主完成任务的AI Agent ,是未来的发展方向。
值得注意的是,与吴恩达一样,Sutskever同样使用“形容词 ”Agentic描述智能体 。
根据线性资本Bolt观点:我们可以用少量的、适量的、高度的Agentic“能力”描述Agent应用的能力。例如,Router(路由)类系统使用LLM将输入路由到特定的下游工作流中 ,具有少量的Agentic能力;State Machine(状态机)类系统使用多个LLMs来执行多个路由步骤并且有能力确定每个步骤是继续还是完成,具有相当的Agentic能力;而Autonomous(自主体)类系统更进一步,能够使用工具甚至创造合适的工具去推进系统的进一步决策 ,具备完全的Agentic能力。
基于此,厂商在强调产品的Agent属性前,不妨先回答“How agentic my system is?”
当前不少领域的专业AI Agent依然不够成熟 。相关调查显示 ,输出不精确 、性能差强人意、用户不信任等问题困扰其落地。但如果我们换个思路:短期内商业化最成功的AI Agent,不一定是看起来“Agentic化”最高的产品;而是能够平衡性能、可靠性,以及用户信任的产品。
顺着这条思路 ,专业AI Agent最有前途的发展道路可能是:重点先应放在利用AI增强现有工具,而不是提供广泛的全自主独立服务 。
用人机协同的方法,让人类参与监督和处理边缘案例。根据当前的能力和局限 ,设定不脱离现实的期望。通过结合严格约束的LLMs 、良好的评估数据、人机协同监督和传统工程方法,在自动化等复杂任务方面实现可靠且良好的效果 。
例如,红杉投资组合中的Rocks公司,其Agent是将人类员工融入其中。最初 ,Rocks开发了一项自动撰写、自动发送电子邮件的技术。但他们发现将人类销售纳入流程时,表现提升了333倍。于是,Rocks移除了自动发送的功能 。
根据具体业务场景 ,有些公司可以开发Agent完成任务的技术,比如网络安全领域的Expo;而有些公司则尽量选择用Agent“增强 ”人类员工,比如Rocks。
那么 ,2025年会发生什么?
不止是编程,更多垂直领域将跑出“种子选手”。红杉合伙人 Konstantine Buhler预测:医疗和教育等“高服务成本”领域将成为AI技术的下一个重要战场 。
根据LangChain报告显示:人们希望将耗时任务交给AI Agent——充当“知识过滤器 ”:快速提炼关键信息,用户无需自己手动筛选海量数据;“生产力加速器”:协助用户安排日程 、管理任务 ,让人类专注于更重要的工作;“客服神助攻”:帮助企业更快地处理客户咨询、解决问题,大幅提升团队的响应速度。
换句话说,所有耗时、耗力、耗成本的工作有望率先被垂直领域专业AI Agent替代。
AI Agent部署将由“单 ”变“多” 。一方面 ,AI Agent将从单一智能体发展到“群体协作”模式。2025年会出现更多Multi-agent模式,多个Agent扮演不同角色合作完成任务。例如,清华面壁智能的开源项目ChatDev 。每个Agent被赋予了不同的身份,有的是CEO ,有的是产品经理,有的是程序员,它们能够彼此互相合作 ,共同完成任务。
另一方面,随着⼤模型对图像和视频信息的处理能⼒快速提升,2025年将开始出现更为综合性的多模态交互 ,AI能够通过物联⽹ 、特定信息等多种感知通道进⾏协同。多模态输⼊和输出使AI交互性更强、交互频次更⾼,适⽤场景也更加丰富,AI产品整体⽔平显著提升 。
其中 ,Agent作为融合感知、分析 、决策和执⾏能⼒的智能体,其交互的主动性和⾃动化远超现有工具。
根据量子位智库观察:从技术和配套设施两⽅⾯发展来看,从2025年开始 ,AI Agent即将⼴泛投⼊使⽤。AI Agent有望带来独属于AI 2.0时代的交互⽅式、产品形态和商业模式。
结语
在电影《2001:太空漫游》的开头,一群草食人猿挣扎在饥饿和死亡的边缘,人猿首领偶然挥舞了一下手里的棒骨,“发现 ”它居然是一件趁手的工具 。从此 ,他们开始狩猎小动物,成为食肉动物,逐步站上了食物链顶端。
如果未来的人类俯瞰2025年 ,可能会发现,这又是一个人类进化的关键时刻,而AI Agent正是那根趁手的“棒骨”。
正如Andrej Karpathy所言 ,AI Agent代表着一个疯狂的未来 。
有趣的是,Agent一词源于拉丁语的Agere,意思是“to do”。
如何抓住这个疯狂的未来?你可能只需要“Agent ”。