Anthropic首席执行官:模型的可解释性研究刻不容缓

前沿资讯 1745567808更新

1

Anthropic首席执行官达里奥·阿莫迪(Dario Amodei)在其最新博客文章中着重指出,随着人工智能从一个冷门的学术领域一路跃升为全球经济与地缘政治的焦点议题,理解人工智能系统内部运作机制的可解释性研究,已经到了刻不容缓的地步。

“在这十年里,我亲眼见证了人工智能的巨大转变。”阿莫迪感慨地说,“虽然技术进步的大趋势无法阻挡,但我们完全可以决定它的发展路径。以前,大家关注的是怎么让人工智能为世界带来好处,还有让民主国家在技术运用上占得先机。现在,可解释性成了新的关键。”

现代的生成式人工智能系统和传统软件有着天壤之别。就拿写文章、做总结这些事儿来说,人工智能系统做这些时,我们根本不清楚它为啥选这个词不选那个词,为啥有时候还会出错。“这些人工智能系统就像是‘长’出来的,而不是‘造’出来的,它的内部机制是自己‘冒’出来的,很难弄明白。”阿莫迪无奈地表示。

这种不透明带来了一连串麻烦。人工智能研究人员一直担心系统“跑偏”,做出有害的事。但因为搞不懂内部构造,既没法预测这些危险行为,也没办法证明风险到底有多严重,处理起来特别棘手。另外,人工智能要是被坏人利用,比如用来造生物武器、网络武器,后果不堪设想。现在根本没办法拦住它获取危险信息,也阻止不了它把这些信息传出去。而且,因为不清楚人工智能会做出什么行为,在一些对安全要求特别高的金融领域和关键安全场景,它根本派不上用场。有些地方,像做房贷评估,法律规定决策必须得能解释清楚,人工智能就因为这点被卡住了。

好在,这几年可解释性研究也取得了一些成果。刚开始,研究主要集中在视觉模型上,研究人员发现了模型里能代表特定概念的神经元,还搞清楚了它们之间是怎么连接的。后来研究拓展到语言领域,虽说碰到了“叠加”这个难题——很多神经元代表的概念乱糟糟混在一起,但通过稀疏自动编码器这些技术,还是找到了好多更复杂、更微妙的概念特征。不仅如此,现在还能调整这些特征的重要性,来影响模型的表现。最近,研究又深入到“电路”层面,能试着追踪模型是怎么思考问题的了,虽然目前发现的电路还不多,但已经能让我们看到模型写诗时怎么押韵、不同语言概念怎么共享这些过程。

为了将可解释性研究成果应用于实际,降低人工智能风险,Anthropic 还进行了相关实验。他们通过 “红队” 给模型引入问题,“蓝队” 利用可解释性工具进行诊断,初步积累了实践经验。未来,期望能够像给大脑做扫描一样,对先进的人工智能模型进行全面检查,精准识别各种问题,从而更好地训练和校准模型。

但现在时间紧迫,因为人工智能发展速度太快了。阿莫迪担心,照这个趋势,2026年或者2027年可能就会出现超级强大的人工智能系统。要是到时候还搞不懂它们是怎么运作的,直接用起来,风险太大了。

为了解决这个问题,阿莫迪呼吁大家一起行动。他希望不管是企业、高校,还是非营利组织里的人工智能研究人员,都能多在可解释性研究上下功夫。“现在这个领域机会特别多,就等大家来探索。”他说道。同时,他也给政府提了建议,一方面可以出台一些宽松的政策,鼓励企业把安全保障措施公开,推动可解释性研究成果的应用和交流。另一方面,利用出口管制措施,给可解释性研究争取更多时间,在人工智能技术竞争里建立一个“安全缓冲带”。

参考资料:https://www.darioamodei.com/post/the-urgency-of-interpretability