前沿资讯
1769676508更新
0
导读:当整个行业都在追逐"多agent协作"时,Google Research用180次实验给出了一个反直觉的结论:不是所有任务都适合多agent架构,用错了反而更差。这项研究覆盖了金融分析、网页导航、任务规划、工具调用四大场景,对比了5种主流agent架构,发现多agent在并行任务上可提升81%性能,但在顺序推理任务上会下降70%。
在AI agent设计领域,有一个流传甚广的"常识":agent越多,效果越好。
学术界和工业界的不少研究都在验证这一点,比如"More Agents Is All You Need"就声称LLM性能随agent数量增加而提升,协作 scaling 研究也表明多agent协作"往往能通过集体推理超越个体"。
这个假设听起来很合理,因为既然一个agent能做好一件事,那十个agent分工协作,理应更强。于是很多团队在设计agent系统时,第一反应就是"多加几个specialized agent" ,觉得这是提升性能的最直接方式。
但Google Research的这项新研究,给这个假设打上了一个大大的问号。

为了系统性回答"agent系统如何scale"这个问题,Google Research团队进行了迄今为止最大规模的受控实验,覆盖180种不同的agent配置。研究团队首先定义了什么是"agentic task"(需要agent特性的任务),认为这类任务必须满足三个条件:与外部环境的持续多步交互、在部分可观测条件下的迭代信息收集、以及基于环境反馈的自适应策略优化。
在架构层面,团队评估了五种主流的agent架构:
单agent系统(Single-Agent, SAS)是最基础的形态,一个独立的agent按顺序执行所有推理和行动步骤,共享同一个记忆流。这种架构的优势在于简单直接,没有协调开销。
独立架构(Independent)让多个agent并行处理子任务,彼此不通信,只在最后聚合结果。这种设计追求最大程度的并行化,协调开销最低,但缺乏相互校验机制。
中心化架构(Centralized)采用"中心辐射"模型,一个中心编排器(orchestrator)负责分配任务给worker agent,然后整合它们的输出。这种架构有明确的分工和汇总机制。
去中心化架构(Decentralized)是点对点的mesh结构,agent之间直接通信、共享信息、达成共识。没有中心节点,协作更灵活但协调复杂度更高。
混合架构(Hybrid)结合了层级监督和点对点协调,兼顾中心控制和灵活执行,是五种架构中功能最丰富的。

测试场景涵盖四个benchmark:Finance-Agent用于金融推理,BrowseComp-Plus用于网页导航,PlanCraft用于任务规划,Workbench用于工具使用。
实验结果发现:更多agent不是万能药,其效果高度依赖于任务本身的特性。
在并行可分解的任务上,多agent系统展现出巨大优势。以Finance-Agent为例,多agent协调带来了81%的性能提升 。这是因为金融分析任务天然可以拆解:一个agent分析收入趋势,另一个分析成本结构,第三个做市场对比,这些子任务相互独立,完全可以并行推进。中心化架构在这种场景下表现最佳,相比单agent提升了80.9%。
然而,在需要严格顺序推理的任务上,情况完全相反。在PlanCraft(任务规划)场景中,所有多agent变体都出现了性能下降,降幅从39%到70%不等。研究团队将此称为"sequential penalty"(顺序惩罚)。原因也很直观:当任务要求按特定顺序逐步推理时,频繁的agent间通信会打断推理链条,导致"认知预算"被协调开销消耗殆尽,真正留给任务本身的资源反而变少。
研究团队还识别出了一个有趣的"工具协调平衡"(tool-coordination trade-off):当任务需要调用更多工具时(比如一个编码agent需要访问16个以上工具),协调多个agent的"税"会不成比例地增加,表明工具密集型任务可能更适合单agent或简洁的层级架构。

性能之外,研究团队还关注了一个对实际部署至关重要的指标:错误放大率(error amplification),即单个agent的错误传播到最终结果的速率。
研究发现:独立多agent系统的错误放大率高达17.2倍。由于agent之间不通信、无法相互检查,一个错误会像滚雪球一样unchecked地传递下去。相比之下,中心化架构通过设置"验证瓶颈",编排器作为守门员,在错误扩散前将其捕获,把错误放大率控制在4.4倍。
这说明:架构选择不仅是性能问题,更是安全问题。在生产环境中,选择一个能有效遏制错误传播的架构,可能比追求极致性能更重要。
本次研究的核心发现,可以凝练为一句话:更聪明的模型不会取代多agent系统的需求,它们会加速多agent的应用,但前提是架构选对。
参考资料:https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/
豫公网安备41010702003375号