阿里推出通义DeepResearch:开源智能研究助手,性能逼近国际水准

前沿资讯 1758173874更新

0

导读:阿里巴巴正式推出开源研究助手通义深度研究(DeepResearch),在多项复杂推理和信息检索测试中表现接近国际领先水平,并全面超越现有开源与闭源系统。该系统已应用于高德地图智能出行助手“小高”和通义法睿法律助手。


阿里巴巴正式发布了通义深度研究(DeepResearch),这是业界首个完全开源的网页研究助手,在一系列公开测试中表现接近国际领先产品。

在性能上,通义DeepResearch成绩亮眼:在复杂学术推理任务 Humanity’s Last Exam(HLE)中取得32.9分,在信息检索类测试 BrowseComp 与 BrowseComp-ZH 中分别拿到43.4和46.7分,在用户导向的 xbench-DeepSearch 中更是达到75分,全面超越现有的同类开源与闭源系统

除了性能突破,阿里团队还公布了其背后的完整研发思路。核心在于大规模合成数据的使用,涵盖从持续预训练(CPT)、监督微调(SFT)、到强化学习(RL)的全流程。这一方法不仅提升了推理和规划能力,也让系统在没有复杂“提示词工程”的情况下,仅凭基础框架就能展现出强大的推理水平。

值得注意的是,通义DeepResearch提供了两种运行模式:

  • ReAct模式:无需额外设计提示,即可多轮推理解决复杂问题。
  • Heavy模式:面向长链条、多步骤任务,通过“迭代研究(IterResearch)”方式分解问题,保持清晰推理思路。

目前,通义DeepResearch已经在实际场景中落地。比如:

  • 高德地图(Amap)团队合作的“小高”助手,能够根据用户需求规划包含景点、酒店等在内的多日旅行路线,提供超越传统导航的智能出行体验。
  • 通义法睿(FaRui)法律研究助手,能像初级律师一样,自动完成案例检索、法规交叉引用,并给出带有出处的法律分析。

当然,这一系统仍有提升空间。阿里方面坦言,128K上下文长度对部分超复杂任务仍有限制,未来会探索更大的上下文窗口,同时将在更大规模的基础上验证方法,并改进强化学习的效率

阿里研究团队透露,他们在过去半年已连续发布多篇相关技术报告,并将在社区持续共享最新进展。


参考资料:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/