DeepMind开源史上最大可解释性工具集：Gemma Scope 2发布-AI前沿快讯-AI工具导航

DeepMind开源史上最大可解释性工具集：Gemma Scope 2发布

前沿资讯 1766302646更新

导读：Google DeepMind 发布 Gemma Scope 2，一套面向 Gemma 3 全系列的开放可解释性工具。它可以像“显微镜”一样分析系统内部的激活与决策过程，是目前 AI 领域规模最大的可解释性工具。

长期以来，复杂智能系统“为什么会这样回答”，一直是研究者最头疼的问题之一。系统能给出结果，但内部如何做出判断，往往难以追踪。

针对此问题，Google DeepMind 现在给出的回应是： Gemma Scope 2。

Gemma Scope 2 是一套面向 Gemma 3 全系列的开放可解释性工具。它覆盖从 2.7 亿到 270 亿参数的所有规模，允许研究者直接分析系统内部激活、特征形成以及它们与最终行为之间的关系。

在官方描述中，这套工具的角色很明确：就像一台显微镜，用来观察系统在“想什么”，以及这些想法是如何一步步形成的。

从工程规模来看，这次发布本身就相当罕见。Gemma Scope 2 的训练与构建涉及超过 1 万亿参数，总数据存储规模约 110PB，DeepMind 也明确表示，这是目前他们所知 规模最大的可解释性工具开源发布。

和上一代工具相比，Gemma Scope 2 的重点更加偏向真实使用场景。它支持分析越狱行为、幻觉问题、过度迎合等与安全相关的复杂现象，并能研究系统“对外给出的解释”是否与内部状态一致。

这次还新增了面向对话版本的分析工具，用于拆解多步骤交互中的行为变化，比如拒答机制是如何被触发的。

官方展示的示例中，研究者可以清楚看到，系统是如何一步步判断一封邮件可能涉及诈骗或欺诈。

DeepMind 表示，希望通过 Gemma Scope 2，让研究者能够调试新出现的复杂行为，更系统地审计和分析智能代理，并为现实世界中的安全问题提供更可靠的技术基础。

目前，Gemma Scope 2 的交互演示已经通过 Neuronpedia 提供体验。

参考资料：https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/