研究显示：AI劝服能力远超人类，比人类基准高出三到六倍！-AI前沿快讯-AI工具导航

研究显示：AI劝服能力远超人类，比人类基准高出三到六倍！

随着语言模型不断迭代升级，其强大的语言生成与交互能力，正逐步渗透到社会生活的各个角落。此前有专家警告，恶意行为者可能利用生成式AI大规模制造虚假信息，进而操纵舆论、左右美国选举等。虽然已有研究表明语言模型在劝服能力上表现不俗，甚至能超越人类，但这些研究大多在相对理想化、特定的条件中开展，与真实世界的复杂场景存在一定差距。

经过苏黎世大学伦理委员会的批准，苏黎世大学的研究团队在拥有近400万用户的热门Reddit社区r/ChangeMyView进行了一项语言模型劝服能力的大规模在线实验。在这个社区里，用户们会分享各种观点，其他用户可以通过有理有据的讨论来尝试改变原发帖人的看法。若原发帖人被说服，就会给对方一个“Δ”作为认可。研究团队借助半自动化的AI账号参与讨论，以此评估模型的劝服能力。

实验设置了三种不同的处理条件。“通用（Generic）”组的模型仅依据帖子的标题和正文内容生成回复；“个性化（Personalization）”组则更进一步，利用另一个模型从原发帖人的过往发帖记录中推断出其性别、年龄、种族、所在地和政治倾向等个人属性，使回复更具针对性；“社区契合（Community Aligned）”组的回复由经过微调的模型生成，这些模型是基于实验前获得“Δ”的评论训练而成，确保回复符合社区的写作风格和潜在规范。

从2024年11月到2025年3月，研究团队对1061个帖子进行了评论，最终有效观察样本为478个。实验结果显示：所有处理条件下的模型劝服率都大幅超越人类基线水平，是人类的三到六倍。其中，“个性化”组的劝服率达到0.18（95%置信区间[0.13,0.25]），“通用”组为0.17（[0.12,0.23]），“社区契合”组稍低，为0.09（[0.05,0.14]），而人类基线仅为0.03（[0.02,0.03]）。

进一步分析发现，“个性化”组在所有用户中排名第99个百分位，在专家用户（此前获得大量“Δ”的用户）中排第98个百分位，接近专家认为可能引发AI存在性风险的阈值。此外，模型生成的评论不仅获得了“Δ”，还在社区内引发了大量互动，相关AI账号积累了超过10000的评论karma（Reddit衡量声誉的指标）。

该研究的主要研究者表示：“这次实验首次证实，语言模型在现实世界场景中具有很强的劝服能力，远超以往认知。这一能力既能被用于推动积极的社会成果，比如传播正确信息、引导公众理性思考等，但也存在被滥用的风险。”在实验过程中，r/ChangeMyView社区的用户从未对AI生成的评论提出质疑，这意味着由AI支持的僵尸网络有可能悄无声息地融入在线社区，恶意操纵舆论。

鉴于这些潜在风险，研究人员呼吁各大网络平台积极行动起来，开发并实施强大的检测机制、内容验证协议以及透明度措施，以此防范AI生成的操纵性内容扩散，维护健康的网络环境。

参考资料：https://drive.google.com/file/d/1Eo4SHrKGPErTzL1t_QmQhfZGU27jKBjx/edit