研究显示:AI劝服能力远超人类,比人类基准高出三到六倍!

前沿资讯 1745917073更新

0

随着语言模型不断迭代升级,其强大的语言生成与交互能力,正逐步渗透到社会生活的各个角落。此前有专家警告,恶意行为者可能利用生成式AI大规模制造虚假信息,进而操纵舆论、左右美国选举等。虽然已有研究表明语言模型在劝服能力上表现不俗,甚至能超越人类,但这些研究大多在相对理想化、特定的条件中开展,与真实世界的复杂场景存在一定差距。

经过苏黎世大学伦理委员会的批准,苏黎世大学的研究团队在拥有近400万用户的热门Reddit社区r/ChangeMyView进行了一项语言模型劝服能力的大规模在线实验。在这个社区里,用户们会分享各种观点,其他用户可以通过有理有据的讨论来尝试改变原发帖人的看法。若原发帖人被说服,就会给对方一个“Δ”作为认可。研究团队借助半自动化的AI账号参与讨论,以此评估模型的劝服能力。

实验设置了三种不同的处理条件。“通用(Generic)”组的模型仅依据帖子的标题和正文内容生成回复;“个性化(Personalization)”组则更进一步,利用另一个模型从原发帖人的过往发帖记录中推断出其性别、年龄、种族、所在地和政治倾向等个人属性,使回复更具针对性;“社区契合(Community Aligned)”组的回复由经过微调的模型生成,这些模型是基于实验前获得“Δ”的评论训练而成,确保回复符合社区的写作风格和潜在规范。

从2024年11月到2025年3月,研究团队对1061个帖子进行了评论,最终有效观察样本为478个。实验结果显示:所有处理条件下的模型劝服率都大幅超越人类基线水平,是人类的三到六倍。其中,“个性化”组的劝服率达到0.18(95%置信区间[0.13,0.25]),“通用”组为0.17([0.12,0.23]),“社区契合”组稍低,为0.09([0.05,0.14]),而人类基线仅为0.03([0.02,0.03])。

进一步分析发现,“个性化”组在所有用户中排名第99个百分位,在专家用户(此前获得大量“Δ”的用户)中排第98个百分位,接近专家认为可能引发AI存在性风险的阈值。此外,模型生成的评论不仅获得了“Δ”,还在社区内引发了大量互动,相关AI账号积累了超过10000的评论karma(Reddit衡量声誉的指标)。

该研究的主要研究者表示:“这次实验首次证实,语言模型在现实世界场景中具有很强的劝服能力,远超以往认知。这一能力既能被用于推动积极的社会成果,比如传播正确信息、引导公众理性思考等,但也存在被滥用的风险。”在实验过程中,r/ChangeMyView社区的用户从未对AI生成的评论提出质疑,这意味着由AI支持的僵尸网络有可能悄无声息地融入在线社区,恶意操纵舆论。

鉴于这些潜在风险,研究人员呼吁各大网络平台积极行动起来,开发并实施强大的检测机制、内容验证协议以及透明度措施,以此防范AI生成的操纵性内容扩散,维护健康的网络环境。

参考资料:https://drive.google.com/file/d/1Eo4SHrKGPErTzL1t_QmQhfZGU27jKBjx/edit