Anthropic推出Claude 4系列混合模型：Claude Opus 4和Sonnet 4-AI前沿快讯-AI工具导航

Anthropic推出Claude 4系列混合模型：Claude Opus 4和Sonnet 4

Anthropic宣布推出最新一代Claude模型：Claude Opus 4和Claude Sonnet 4，为编码、高级推理和AI代理设定了新标准。

Claude Opus 4是目前最强大的模型，也是目前最强的编码模型，在SWE-bench（72.5%）和Terminal-bench（43.2%）上领先。它在需要数千个步骤的长期任务中表现出色，能够连续工作数小时，性能远超所有Sonnet模型，极大地扩展了AI代理可以完成的任务。使用反馈方面，人工智能编程工具Cursor称，Claude Opus 4在编码方面是最先进的，在复杂代码库理解方面有了飞跃。专注于开发人工智能软件工程工具的Cognition指出，Opus 4擅长解决其他模型无法解决的复杂挑战，成功处理了以前模型错过的关键操作。

Claude Sonnet 4在Sonnet 3.7的能力基础上有了显著提升，在编码方面表现出色，在SWE-bench上达到了最先进的72.7%。虽然在大多数领域不如Opus 4，但它提供了能力和实用性的最佳组合。GitHub表示Claude Sonnet 4在代理场景中表现出色，并将其作为新编码代理的模型引入GitHub Copilot。iGent报告称Sonnet 4擅长自主多功能应用开发，以及大幅改进的问题解决和代码库导航，将导航错误从20%降至接近零。代码搜索和导航平台Sourcegraph表示该模型在软件开发方面有望实现重大飞跃，能够更长时间地保持正轨，更深入地理解问题，并提供更优雅的代码质量。

在模型改进方面，两个模型均显著减少了模型使用捷径或漏洞完成任务的行为。在特别容易出现捷径和漏洞的代理任务中，这两个模型出现这种行为的可能性比Sonnet 3.7低65%。Claude Opus 4在内存能力方面也远超所有以前的模型，当开发人员构建为Claude提供本地文件访问的应用程序时，Opus 4擅长创建和维护“内存文件”来存储关键信息，能够为代理任务带来更好的长期任务意识、连贯性和性能。另外，还引入了一个思考总结功能，该功能使用了一个小模型压缩冗长的思考过程，这种总结只在大约5%的时间需要，因为大多数思考过程足够短，可以完整显示。

除了模型本身，Anthropic还带来了一些新功能。在扩展思考方面，两个模型都可以在扩展思考期间使用网络搜索等工具，通过推理和工具使用的交替来改进响应。在模型能力上，它们能够并行使用工具，更精确地遵循指令，并且在允许访问本地文件时，展示出显著改进的内存能力，能够提取和保存关键事实以保持连续性并逐步构建隐性知识，比如Opus 4在玩《精灵宝可梦》时创建了一个 “导航指南”。

Claude Opus 4和Sonnet 4都是混合模型，能够提供近即时响应和用于更深入推理的扩展思考两种模式。Pro、Max、Team和Enterprise版Claude计划包括这两个模型和扩展思考功能，Sonnet 4也向免费用户提供。这两个模型可在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上使用，定价与之前的Opus和Sonnet模型一致，Opus 4每百万令牌（输入/输出）为15/75美元，Sonnet4为3/15美元。

另外，Claude Code现在已全面可用，支持通过GitHub Actions执行后台任务，并与VS Code和JetBrains进行原生集成，可直接在文件中显示编辑内容，实现无缝的结对编程。Anthropic API也发布了四项新功能，使开发人员能够构建更强大的AI代理，包括代码执行工具、MCP连接器、Files API以及将提示缓存长达一小时的能力。

参考资料：https://www.anthropic.com/news/claude-4