DeepMind开源史上最大可解释性工具集:Gemma Scope 2发布

前沿资讯 1766302646更新

0

导读:Google DeepMind 发布 Gemma Scope 2,一套面向 Gemma 3 全系列的开放可解释性工具。它可以像“显微镜”一样分析系统内部的激活与决策过程,是目前 AI 领域规模最大的可解释性工具。


长期以来,复杂智能系统“为什么会这样回答”,一直是研究者最头疼的问题之一。 系统能给出结果,但内部如何做出判断,往往难以追踪。

针对此问题,Google DeepMind 现在给出的回应是: Gemma Scope 2

Gemma Scope 2 是一套面向 Gemma 3 全系列的开放可解释性工具。它覆盖从 2.7 亿到 270 亿参数的所有规模,允许研究者直接分析系统内部激活、特征形成以及它们与最终行为之间的关系。

在官方描述中,这套工具的角色很明确:就像一台显微镜,用来观察系统在“想什么”,以及这些想法是如何一步步形成的。

从工程规模来看,这次发布本身就相当罕见。Gemma Scope 2 的训练与构建涉及超过 1 万亿参数,总数据存储规模约 110PB,DeepMind 也明确表示,这是目前他们所知 规模最大的可解释性工具开源发布

和上一代工具相比,Gemma Scope 2 的重点更加偏向真实使用场景。它支持分析越狱行为、幻觉问题、过度迎合等与安全相关的复杂现象,并能研究系统“对外给出的解释”是否与内部状态一致。

这次还新增了面向对话版本的分析工具,用于拆解多步骤交互中的行为变化,比如拒答机制是如何被触发的。

官方展示的示例中,研究者可以清楚看到,系统是如何一步步判断一封邮件可能涉及诈骗或欺诈。

DeepMind 表示,希望通过 Gemma Scope 2,让研究者能够调试新出现的复杂行为,更系统地审计和分析智能代理,并为现实世界中的安全问题提供更可靠的技术基础。

目前,Gemma Scope 2 的交互演示已经通过 Neuronpedia 提供体验。


参考资料:https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/