Anthropic CEO:寻找那些具有开放思维的人,这些人是推动领域发展的关键因素

前沿资讯 1731396730更新

0

OpenAI最强竞争对手Anthropic的首席执行官达里奥·阿莫代(Dario Amodei)加入了Lex Fridman的播客,在节目中,达里奥在表达了对AI快速发展和智能增长的乐观态度,他强调了在AI模型的规模、数据和计算力方面持续投资的重要性,并认为通过不断的技术创新和负责任的AI实践,可以推动整个行业朝着更安全、更有效的方向发展。

达里奥在节目中表示,他注意到了一个明显的趋势:随着模型规模的扩大、数据量的增加以及计算力的提升,AI模型的性能也随之增强,这种关系在他的职业生涯中被反复证实,尤其是在语言处理领域,这一点表现得尤为突出。语言数据的丰富性为训练强大的模型提供了可能,因为语言是人类文明的重要组成部分,其产生的数据量巨大,且在互联网上广泛可得,从早期的小型模型到如今能够处理数万亿词汇的庞大模型,这一领域的进步是显著的。他回忆说,最初进入AI领域时,深度学习还是一个新鲜事物,尽管取得了很多进展,但许多人认为我们还没有找到成功的算法,我们只是触及了冰山一角。然而,通过增加模型的大小、扩展数据集以及延长训练时间,模型的性能得到了显著提升,他将模型、数据和计算力比作化学反应中的三种原料,只有当所有原料都按比例增加时,反应才能顺利进行。

达里奥指出,尽管在AI发展的每个阶段,总有人提出质疑,认为模型可能无法理解语言的深层含义,或者认为模型无法处理复杂的推理任务,然而,随着模型性能的实际提升,这些质疑逐渐被证明是错误的。他认为,尽管我们无法完全理解这种规模增长背后的理论基础,但实际的证据表明,只要我们继续扩大模型规模、增加数据量和计算力,模型的性能就会继续提升,这种增长的势头是如此强劲,以至于那些曾经看似难以克服的障碍,现在看起来可以被克服。

达里奥从他的生物物理学背景出发,提出了一个关于为什么更大的网络和数据量能够导致更智能模型的假设。在物理领域中,某些自然过程产生的不同尺度的模式,例如电阻中的热噪声,其分布遵循1/f噪声分布,这是一种自然收敛的分布,在这些过程中,当你将许多不同分布的自然过程叠加在一起时,你可能会得到一个高斯分布。他将这个概念类比到语言和智能模型中,语言中存在着从非常简单到非常复杂的模式,就像物理过程中的噪声分布一样。在语言中,有些模式非常常见,比如一些单词的使用频率远高于其他单词,基本的名词和动词结构,以及名词和动词之间的一致性要求,然后是更高层次的句子结构,再到段落的主题结构。他认为,这些模式构成了一个递减的结构,随着网络规模的增加,模型首先捕捉到非常简单的关联和模式,然后是越来越复杂的模式,如果这些复杂模式的分布非常平滑,就像物理过程中的1/f噪声分布一样,那么随着网络规模的增加,模型能够捕捉到越来越多的分布,从而在预测和性能上反映出这种平滑性。

他进一步推测,语言作为一种演化过程,已经随着人类的发展而演变了数百万年,因此可能存在某种长尾分布,涉及到这些思想的分布,因此,更大的网络可能具有更高的能力来精确捕捉这些模式。如果网络规模较小,模型可能只能理解一些基本的模式,比如一个句子需要有动词、形容词和名词,但如果网络规模更大,它就能更好地理解这些词应该是什么,以及它们是否能够合理地组合在一起。随着网络规模的增加,模型能够捕捉到越来越罕见和复杂的模式,因此,他认为,随着模型规模的增加,它们能够更好地理解和生成语言,这与物理过程中的1/f噪声分布有着相似之处,这种分布的平滑性在模型的预测能力和性能上得到了体现。

达里奥提到,随着AI模型的不断发展和迭代,如何对它们进行命名和版本控制成为了一个日益复杂的问题。模型的特性和性能在不断地变化,而且随着技术的进步,这些变化变得更加微妙和多样,在早期,模型的主要区别可能仅仅在于它们的规模和训练数据,但随着时间的推移,模型开始展现出更多的维度,比如它们的响应风格、处理特定任务的能力,甚至是它们在伦理和安全性方面的表现。而且,随着模型变得更加复杂,它们开始展现出类似人类的个性和风格,这使得版本控制不仅仅是关于技术规格的问题,还涉及到模型的“性格”和“行为”,这种个性的塑造和演变,使得模型的版本控制更像是艺术而不是科学。

对于用户有时会感觉到模型性能变化的问题,达里奥提到,在AB测试中可能会遇到这种情况,一部分用户可能会接触到模型的新版本,而另一部分用户则继续使用旧版本,他强调,这些测试通常是在模型发布前的短时间内进行的,并且只会影响一小部分用户。另外,系统提示的变化也会影响他们对模型性能的感知,他指出,虽然系统提示的变化不太可能使模型变笨,但它们确实可以对用户的体验产生影响,这些变化发生得相对不频繁,但它们是模型更新的一部分,可能会被用户感知到。模型的复杂性方面,导致它们对用户的互动方式非常敏感,即使是微小的措辞变化也可能导致模型以不同的方式响应,但这不一定是模型本身发生了变化,他承认,这种模型的敏感性是模型提供方的一个失败,因为模型的行为应该更加一致和可预测。最后,达里奥提出了一个心理学上的解释,即人们对新模型的兴奋感会随着时间的推移而减少,他们开始更加意识到模型的局限性,这种心理效应可能导致用户感觉到模型的性能下降,即使模型本身并没有实质性的变化,他强调,对于大多数用户来说,他们使用的模型的实际权重并没有变化,模型的权重,或者说模型的“大脑”,只有在推出新模型时才会改变,除非用户被明确告知并且使用了新模型,否则他们所体验的模型在本质上是相同的。

在讨论Anthropic的团队构建时,达里奥特别强调了人才密度的重要性。他认为,一个由高度投入和有才华的个体组成的团队是成功的关键。他通过一个思想实验来阐述这一观点,比较了两个不同规模的团队:一个由100名超级聪明、动机强烈且与使命高度一致的人组成的小团队,另一个由1000人组成的大团队,其中200人同样超级聪明、高度一致,而剩下的800人则像是随机挑选的大科技公司员工。尽管大团队中的人才数量更多,但小团队中的每个人都能看到其他同样有才华、同样专注的人,这种环境为团队设定了基调,激发了每个人的工作热情,建立了相互信任,并且减少了因内部政治斗争而产生的能量消耗。Anthropic在从300人增长到800人的过程中迅速扩张,但现在他们放慢了招聘速度,因为他们希望在增长的同时保持团队的一致性和专注度。他们一直在努力确保尽可能多的员工都是超级有才华、超级有技能,这也是为什么他们对研究和软件工程岗位都设置了很高的招聘标准,达里奥认为,拥有一个统一目标的团队是一种超级力量,可以克服几乎所有其他劣势。

在建立团队时,达里奥建议要寻找那些具有开放思维的人。他认为,开放思维是最重要的特质之一,这种思维方式使得他们能够以新的视角看待问题和数据,从而发现别人可能忽视的模式和解决方案。他以自己早期对AI领域的探索为例,指出当他首次加入AI领域时,他并没有被既定的观念所束缚,而是愿意尝试和探索不同的方法,这种开放性使他能够看到其他人可能忽略的可能性,例如在神经网络的规模和数据量上的实验,这些实验最终证明了模型性能的提升与规模和数据量的增加有着直接的关系。这种开放思维的能力并不是指一个人需要有多聪明或者技术有多高超,而是指他们愿意质疑现状,愿意尝试新的方法,并且对结果持开放态度,这种思维方式在科学研究中尤为重要,因为它能够推动研究者去探索未知的领域,而不是仅仅停留在已经被广泛接受的理论和技术之上。他提到,即使是最简单的实验,只要是基于开放思维去设计的,也有可能带来重大的发现和突破。