Anthropic新模型“海王星”进入红队审查阶段,Claude-Sonnet-3.8要来了?

前沿资讯 1747300989更新

0

据testingcatalogx消息,Anthropic即将发布一个代号为Claude Neptune(海王星)的全新人工智能模型,该模型目前已进入内部安全测试环节,正在Anthropic Workbench上接受红队审查,此次审查工作将持续至5月18日。

此次红队测试的重点是评估Claude Neptune模型抵御“越狱”攻击的能力,所谓“越狱”,就是用户试图诱导模型绕过其预设的安全限制与规则,输出违规内容。测试的重点锁定在宪法分类器系统,它是Anthropic安全协议的基石。

从技术原理来看,Anthropic的宪法分类器系统,涵盖宪法设定、训练集生成以及防护系统三个主要部分。在宪法设定中,明确划分无害与有害内容类别。训练集生成环节,借助具有宪法规则的大语言模型,经过合成提示、数据增强等流程形成训练集。防护系统则对人类查询及模型输出进行分类判断,有害响应将被拦截,仅无害内容会展示给用户。

此番测试安排透露出,Claude Neptune可能是一个更为敏感或强大的系统,所以在正式发布前,必须经历严格的预发布审查流程。不过,目前尚难确定Claude Neptune究竟是Claude Sonnet还是Opus。

据Information消息,两位体验过该模型的人士透露,Anthropic将在未来几周内发布其两个最大模型的新版本Claude Sonnet和Claude Opus。他们表示,这些模型与现有推理模型的不同之处在于,这两个新模型能够在“思考”和 “工具使用”之间来回切换。​

从行业竞争态势看,当前Anthropic在功能更新速度方面落后于OpenAI与谷歌,但Anthropic在稳定性与一致性方面积累了良好口碑。若Claude Neptune能于5月下旬至6月初适时发布,将有机会与OpenAI传闻中的GPT-5以及谷歌的Gemini Ultra等强大竞品一争高下。

Anthropic还宣布启动一项新的漏洞赏金计划,与@Hacker0x01合作,对更新后的反越狱系统进行压力测试,该计划将于5月18日结束。据悉,新的Claude模型是通过工作台日志泄露出来的,通常来说,进入这一阶段,意味着模型发布在即。

参考资料:https://www.testingcatalog.com/new-claude-neptune-model-undergoes-red-team-review-at-anthropic/