月之暗面发布全新智能体Kimi-Researcher,推动端到端强化学习在AI智能体中的落地突破

前沿资讯 1750587674更新

0

Moonshot AI正式发布新一代自主智能体“Kimi-Researcher”,该系统采用端到端的agentic强化学习训练方式,展现出卓越的多轮检索和复杂推理能力,在多个真实世界基准测试中表现领先。

据悉,Kimi-Researcher基于Moonshot自研Kimi K系列模型内测版本开发,是一款面向复杂任务的自主代理智能体,可实现平均23步以上的推理,单任务探索URL数量超过200个。在挑战性极高的“人类最终测试”(Humanity's Last Exam)中,Kimi-Researcher取得了Pass@1 26.9%、Pass@4 40.17%的领先成绩,全面验证了端到端强化学习在推动智能体能力进化方面的巨大潜力。

在多个严苛的真实世界任务和专业基准测试中,Kimi-Researcher表现出强大的综合能力。特别是在xbench-DeepSearch这一专为测试AI搜索推理能力而设计的新型动态测试集上,Kimi-Researcher在四次独立测试中的平均Pass@1成绩达到了69%,显著超越包括o3在内的多款搭载搜索工具的先进模型。此外,在多轮对话型推理测试FRAMES、信息抽取与检索任务Seal-0以及纯事实问答任务SimpleQA中,Kimi-Researcher同样展现出稳定且高水平的表现。

值得注意的是,Kimi-Researcher不依赖多模型协作,而是通过单模型方式独立完成计划、感知与工具调用三项核心能力,实现了真正意义上的通用agentic智能。

Kimi-Researcher摒弃了传统工作流式agent系统的局限,采用强化学习方式直接从最终任务表现进行优化训练。在与传统模仿学习(SFT)相比中,端到端强化学习展现出更强的泛化能力和环境适应能力,尤其在应对长流程任务、多工具调用、高动态场景方面具备显著优势。

Moonshot表示,Kimi-Researcher现已开始分批向用户开放,未来还将开源其底层预训练模型及强化学习模型,以推动智能体方向的研究与社区合作。Moonshot同时透露,Kimi-Researcher只是其长期智能体战略的起点,未来将不断拓展其工具链与任务能力边界,迈向真正通用智能代理系统。

参考资料:https://moonshotai.github.io/Kimi-Researcher/