Google论文“泼冷水”：多智能体未必优于单体，顺序任务性能甚至会暴跌70%-AI前沿快讯-AI工具导航

Google论文“泼冷水”：多智能体未必优于单体，顺序任务性能甚至会暴跌70%

导读：当整个行业都在追逐"多agent协作"时，Google Research用180次实验给出了一个反直觉的结论：不是所有任务都适合多agent架构，用错了反而更差。这项研究覆盖了金融分析、网页导航、任务规划、工具调用四大场景，对比了5种主流agent架构，发现多agent在并行任务上可提升81%性能，但在顺序推理任务上会下降70%。

在AI agent设计领域，有一个流传甚广的"常识"：agent越多，效果越好。

学术界和工业界的不少研究都在验证这一点，比如"More Agents Is All You Need"就声称LLM性能随agent数量增加而提升，协作 scaling 研究也表明多agent协作"往往能通过集体推理超越个体"。

这个假设听起来很合理，因为既然一个agent能做好一件事，那十个agent分工协作，理应更强。于是很多团队在设计agent系统时，第一反应就是"多加几个specialized agent" ，觉得这是提升性能的最直接方式。

但Google Research的这项新研究，给这个假设打上了一个大大的问号。

为了系统性回答"agent系统如何scale"这个问题，Google Research团队进行了迄今为止最大规模的受控实验，覆盖180种不同的agent配置。研究团队首先定义了什么是"agentic task"（需要agent特性的任务），认为这类任务必须满足三个条件：与外部环境的持续多步交互、在部分可观测条件下的迭代信息收集、以及基于环境反馈的自适应策略优化。

在架构层面，团队评估了五种主流的agent架构：

单agent系统（Single-Agent, SAS）是最基础的形态，一个独立的agent按顺序执行所有推理和行动步骤，共享同一个记忆流。这种架构的优势在于简单直接，没有协调开销。

独立架构（Independent）让多个agent并行处理子任务，彼此不通信，只在最后聚合结果。这种设计追求最大程度的并行化，协调开销最低，但缺乏相互校验机制。

中心化架构（Centralized）采用"中心辐射"模型，一个中心编排器（orchestrator）负责分配任务给worker agent，然后整合它们的输出。这种架构有明确的分工和汇总机制。

去中心化架构（Decentralized）是点对点的mesh结构，agent之间直接通信、共享信息、达成共识。没有中心节点，协作更灵活但协调复杂度更高。

混合架构（Hybrid）结合了层级监督和点对点协调，兼顾中心控制和灵活执行，是五种架构中功能最丰富的。

测试场景涵盖四个benchmark：Finance-Agent用于金融推理，BrowseComp-Plus用于网页导航，PlanCraft用于任务规划，Workbench用于工具使用。

实验结果发现：更多agent不是万能药，其效果高度依赖于任务本身的特性。

在并行可分解的任务上，多agent系统展现出巨大优势。以Finance-Agent为例，多agent协调带来了81%的性能提升 。这是因为金融分析任务天然可以拆解：一个agent分析收入趋势，另一个分析成本结构，第三个做市场对比，这些子任务相互独立，完全可以并行推进。中心化架构在这种场景下表现最佳，相比单agent提升了80.9%。

然而，在需要严格顺序推理的任务上，情况完全相反。在PlanCraft（任务规划）场景中，所有多agent变体都出现了性能下降，降幅从39%到70%不等。研究团队将此称为"sequential penalty"（顺序惩罚）。原因也很直观：当任务要求按特定顺序逐步推理时，频繁的agent间通信会打断推理链条，导致"认知预算"被协调开销消耗殆尽，真正留给任务本身的资源反而变少。

研究团队还识别出了一个有趣的"工具协调平衡"（tool-coordination trade-off）：当任务需要调用更多工具时（比如一个编码agent需要访问16个以上工具），协调多个agent的"税"会不成比例地增加，表明工具密集型任务可能更适合单agent或简洁的层级架构。

性能之外，研究团队还关注了一个对实际部署至关重要的指标：错误放大率（error amplification），即单个agent的错误传播到最终结果的速率。

研究发现：独立多agent系统的错误放大率高达17.2倍。由于agent之间不通信、无法相互检查，一个错误会像滚雪球一样unchecked地传递下去。相比之下，中心化架构通过设置"验证瓶颈"，编排器作为守门员，在错误扩散前将其捕获，把错误放大率控制在4.4倍。

这说明：架构选择不仅是性能问题，更是安全问题。在生产环境中，选择一个能有效遏制错误传播的架构，可能比追求极致性能更重要。

本次研究的核心发现，可以凝练为一句话：更聪明的模型不会取代多agent系统的需求，它们会加速多agent的应用，但前提是架构选对。

参考资料：https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/