Anthropic新模型“海王星”进入红队审查阶段，Claude-Sonnet-3.8要来了？-AI前沿快讯-AI工具导航

Anthropic新模型“海王星”进入红队审查阶段，Claude-Sonnet-3.8要来了？

据testingcatalogx消息，Anthropic即将发布一个代号为Claude Neptune（海王星）的全新人工智能模型，该模型目前已进入内部安全测试环节，正在Anthropic Workbench上接受红队审查，此次审查工作将持续至5月18日。

此次红队测试的重点是评估Claude Neptune模型抵御“越狱”攻击的能力，所谓“越狱”，就是用户试图诱导模型绕过其预设的安全限制与规则，输出违规内容。测试的重点锁定在宪法分类器系统，它是Anthropic安全协议的基石。

从技术原理来看，Anthropic的宪法分类器系统，涵盖宪法设定、训练集生成以及防护系统三个主要部分。在宪法设定中，明确划分无害与有害内容类别。训练集生成环节，借助具有宪法规则的大语言模型，经过合成提示、数据增强等流程形成训练集。防护系统则对人类查询及模型输出进行分类判断，有害响应将被拦截，仅无害内容会展示给用户。

此番测试安排透露出，Claude Neptune可能是一个更为敏感或强大的系统，所以在正式发布前，必须经历严格的预发布审查流程。不过，目前尚难确定Claude Neptune究竟是Claude Sonnet还是Opus。

据Information消息，两位体验过该模型的人士透露，Anthropic将在未来几周内发布其两个最大模型的新版本Claude Sonnet和Claude Opus。他们表示，这些模型与现有推理模型的不同之处在于，这两个新模型能够在“思考”和 “工具使用”之间来回切换。

从行业竞争态势看，当前Anthropic在功能更新速度方面落后于OpenAI与谷歌，但Anthropic在稳定性与一致性方面积累了良好口碑。若Claude Neptune能于5月下旬至6月初适时发布，将有机会与OpenAI传闻中的GPT-5以及谷歌的Gemini Ultra等强大竞品一争高下。

Anthropic还宣布启动一项新的漏洞赏金计划，与@Hacker0x01合作，对更新后的反越狱系统进行压力测试，该计划将于5月18日结束。据悉，新的Claude模型是通过工作台日志泄露出来的，通常来说，进入这一阶段，意味着模型发布在即。

参考资料：https://www.testingcatalog.com/new-claude-neptune-model-undergoes-red-team-review-at-anthropic/