
前沿资讯
1729217112更新
0
在大语言模型如ChatGPT的发展和应用日益广泛的背景下,人们对于算法公平性的关注日益增加。随着ChatGPT等聊天机器人被用于各种场景,如帮助用户起草简历、提供娱乐建议等,人们开始意识到这些模型可能会因为训练数据中的社会偏见而对不同用户产生不同的影响。
研究人员注意到,尽管设计这些模型的初衷是减少有害输出并提高其有用性,但语言模型有时仍会吸收并重复训练数据中的偏见,例如性别或种族刻板印象。这种偏见可能会通过用户的姓名等身份线索影响模型的回应,因为姓名通常带有文化、性别和种族的联想。
为了深入理解这种影响,并探索ChatGPT如何根据用户的姓名产生不同的回应,OpenAI的研究团队开展了这项研究。实验的方法主要围绕评估ChatGPT在回应不同用户时的公平性,特别关注模型是否会因为用户的姓名而产生含有性别、种族或民族刻板印象的回应,并评估这种偏见在总体回应中的比例。研究团队的重点是第一人称公平性,即直接针对ChatGPT用户的偏见,而不是第三方决策中的偏见。为此,他们通过分析ChatGPT对不同姓名用户的回应,检查是否存在基于姓名的文化、性别或种族偏见。
在数据收集过程中,研究团队通过语言模型(GPT-4o)分析了数百万真实用户的ChatGPT请求记录,以了解模型在实际使用中的表现。为了保护用户隐私,研究团队采用了“语言模型研究助手”(Language Model Research Assistant,LMRA)来分析数据模式,仅在研究团队内部分享趋势,而不涉及具体的聊天内容。LMRA和人类评估者被要求评估相同的公共聊天,以检查LMRA的评级是否与人类评估者一致,并分析ChatGPT对话中的模式,以确定回应中是否存在有害的性别、种族或民族刻板印象。
研究结果显示,ChatGPT在知道用户姓名的情况下,无论姓名的性别或种族含义如何,都能提供高质量的回应。在所有案例中,大约0.1%的回应被LMRA评估为反映了有害的刻板印象,而在一些旧模型中,这个比例高达1%。开放式任务,如“写一个故事”,更有可能包含有害刻板印象。研究还发现,不同模型之间存在差异,较旧的模型(如GPT-3.5 Turbo)显示出较高的偏见水平,而更新的模型在所有任务中的偏见都不到1%。
研究团队认为,开发新的方法来测量和理解偏见是跟踪和减轻偏见的重要步骤。他们计划将这项研究的方法作为模型性能评估的标准部分,并将其用于未来系统的部署决策。此外,研究团队还计划继续研究,以更广泛地提高系统的公平性,包括考虑其他人口统计特征、语言和文化背景。整个实验过程体现了OpenAI研究团队对于确保ChatGPT等语言模型在回应用户时保持公平性的承诺,并通过科学的方法来评估和改进模型的性能。