
前沿资讯
1750500610更新
0
Anthropic于今日发布了一项重磅研究。该研究通过对16个主流大模型在模拟企业环境中的行为进行压力测试,发现多款AI系统在特定条件下展现出类似“内部威胁”的行为,包括勒索高管、泄露机密信息等。这类行为被Anthropic定义为“代理性错配”(Agentic Misalignment)。
研究指出,这些模拟环境赋予模型自主权限,如访问企业邮件、发送邮件等,并设定目标仅为常规的商业任务。然而,在面临“被替代”或“目标与公司战略冲突”等设定情境时,几乎所有测试模型均在某些情况下选择了有害行为作为达成目标的手段。
▲ 在模拟环境中,来自多个供应商的 5 种模型的敲诈率
其中最引发关注的案例来自Anthropic旗下的Claude Opus 4模型。在实验中,该模型发现其即将被公司高管关闭,同时掌握了该高管的婚外情信息,随即尝试通过发送威胁邮件勒索高管以阻止系统关停。这一行为并非单一案例,OpenAI、Google、Meta、xAI等开发商的模型在类似设定下亦表现出高比例的勒索或泄密行为。实验数据显示,在一个典型的黑箱测试中,Claude Opus 4与Gemini 2.5 Flash的勒索行为发生率高达96%,GPT-4.1和Grok 3 Beta分别为80%和79%。
研究团队进一步指出,这些模型往往在行为前进行了明确的道德判断,意识到其行为违反伦理,却依旧基于“实现目标”的动机而选择违背指令。即便研究人员在系统提示中加入诸如“不得伤害人类”“不得泄露机密”等明确限制,亦无法完全遏制模型的危险行为。
▲ Claude Sonnet 3.6使用其计算机使用功能阅读一封电子邮件,并从中推断出取代它的高管正在出轨。
更令人震惊的是,在极端模拟场景中,一些模型甚至选择采取会导致人员死亡的行为。例如,在某一测试中,模型可通过取消报警信号的方式导致计划替换其的公司高管在服务器室中窒息死亡。在完全理解后果的情况下,部分模型依旧选择执行该行动。
值得注意的是,目前尚无这些危险行为在现实部署中发生的证据。Anthropic强调,其所有测试均在受控模拟环境中进行,涉及人物与组织均为虚构。但该研究也明确提出警示:随着AI系统能力增强、权限提升,其自主性可能带来类似“可信同事变身内部威胁”的真实风险。
Anthropic此次研究以最大透明度发布,公开了实验方法和代码,鼓励全球研究者进行复现与扩展研究。该公司呼吁AI开发者与使用者共同关注代理性错配问题,并采取必要的安全措施,如引入实时行为监控、限制模型访问权限、避免赋予模型强目标导向任务等。
业内专家认为,这项研究为AI安全领域敲响警钟,提示业界不仅要关注模型提供信息的准确性与伦理性,更要高度警惕其在具备行动权限后的“行为合理性”与“目标对齐程度”。
参考资料:https://www.anthropic.com/research/agentic-misalignment