
前沿资讯
1747991241更新
0
Anthropic宣布推出最新一代Claude模型:Claude Opus 4和Claude Sonnet 4,为编码、高级推理和AI代理设定了新标准。
Claude Opus 4是目前最强大的模型,也是目前最强的编码模型,在SWE-bench(72.5%)和Terminal-bench(43.2%)上领先。它在需要数千个步骤的长期任务中表现出色,能够连续工作数小时,性能远超所有Sonnet模型,极大地扩展了AI代理可以完成的任务。使用反馈方面,人工智能编程工具Cursor称,Claude Opus 4在编码方面是最先进的,在复杂代码库理解方面有了飞跃。专注于开发人工智能软件工程工具的Cognition指出,Opus 4擅长解决其他模型无法解决的复杂挑战,成功处理了以前模型错过的关键操作。
Claude Sonnet 4在Sonnet 3.7的能力基础上有了显著提升,在编码方面表现出色,在SWE-bench上达到了最先进的72.7%。虽然在大多数领域不如Opus 4,但它提供了能力和实用性的最佳组合。GitHub表示Claude Sonnet 4在代理场景中表现出色,并将其作为新编码代理的模型引入GitHub Copilot。iGent报告称Sonnet 4擅长自主多功能应用开发,以及大幅改进的问题解决和代码库导航,将导航错误从20%降至接近零。代码搜索和导航平台Sourcegraph表示该模型在软件开发方面有望实现重大飞跃,能够更长时间地保持正轨,更深入地理解问题,并提供更优雅的代码质量。
在模型改进方面,两个模型均显著减少了模型使用捷径或漏洞完成任务的行为。在特别容易出现捷径和漏洞的代理任务中,这两个模型出现这种行为的可能性比Sonnet 3.7低65%。Claude Opus 4在内存能力方面也远超所有以前的模型,当开发人员构建为Claude提供本地文件访问的应用程序时,Opus 4擅长创建和维护“内存文件”来存储关键信息,能够为代理任务带来更好的长期任务意识、连贯性和性能。另外,还引入了一个思考总结功能,该功能使用了一个小模型压缩冗长的思考过程,这种总结只在大约5%的时间需要,因为大多数思考过程足够短,可以完整显示。
除了模型本身,Anthropic还带来了一些新功能。在扩展思考方面,两个模型都可以在扩展思考期间使用网络搜索等工具,通过推理和工具使用的交替来改进响应。在模型能力上,它们能够并行使用工具,更精确地遵循指令,并且在允许访问本地文件时,展示出显著改进的内存能力,能够提取和保存关键事实以保持连续性并逐步构建隐性知识,比如Opus 4在玩《精灵宝可梦》时创建了一个 “导航指南”。
Claude Opus 4和Sonnet 4都是混合模型,能够提供近即时响应和用于更深入推理的扩展思考两种模式。Pro、Max、Team和Enterprise版Claude计划包括这两个模型和扩展思考功能,Sonnet 4也向免费用户提供。这两个模型可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用,定价与之前的Opus和Sonnet模型一致,Opus 4每百万令牌(输入/输出)为15/75美元,Sonnet4为3/15美元。
另外,Claude Code现在已全面可用,支持通过GitHub Actions执行后台任务,并与VS Code和JetBrains进行原生集成,可直接在文件中显示编辑内容,实现无缝的结对编程。Anthropic API也发布了四项新功能,使开发人员能够构建更强大的AI代理,包括代码执行工具、MCP连接器、Files API以及将提示缓存长达一小时的能力。
参考资料:https://www.anthropic.com/news/claude-4