
前沿资讯
1744008885更新
1
一位AI领域创业者公开表达了质疑,认为近期的AI模型实际表现与宣传大相径庭,所谓的进步大多“华而不实”。
该创业者表示,他于2024年6月和朋友创立了一家公司,旨在利用最新AI模型开发工具,监测大型代码库的安全问题,期望借此取代部分人工渗透测试工作。公司成立初期,Claude 3.5 sonnet发布,其团队将部分服务从gpt-4o切换到新模型后,内部基准测试结果迅速饱和。新工具不仅基本错误大幅减少,在漏洞描述和严重程度评估方面也实现了质的飞跃,仿佛模型能更好地从有限信息中洞悉用户意图。
但此后,虽然新模型不断发布,其团队尝试了几乎所有宣称有改进的重要版本,包括OpenAI的新测试版模型,却发现除了Claude 3.6和3.7有轻微提升外,其他新模型在内部基准测试和帮助开发者发现新漏洞方面,几乎没有明显作用。
这一现象并非个例。该创业者与其他YC创业公司的创始人交流后发现,虽然各团队所处行业和面对的问题集也各不相同,类似情况普遍存在。新模型发布时基准测试成绩亮眼,实际应用中性能却表现平平。从研究数据看,或许大语言模型在聊天趣味性和特定考试表现上有所进步,可结合众多业内同行的实际体验,这些模型在经济实用性和泛化能力方面,自去年8月以来并未取得实质性进展。
对此,人们不禁产生疑问:究竟是哪里出了问题?
AI实验室数据造假?
该创业者认为,AI实验室间竞争激烈,为吸引投资、人才并赢得声誉,存在夸大模型能力、选择性披露有利结果的动机。而且,目前几乎没有法律约束实验室如实公开基准测试结果。虽然部分私有基准测试显示模型有进步,但OpenAI和Anthropic等公司发布模型时所依赖的基准测试,其测试数据集大多公开,这使得模型可能存在“提前知晓答案”的作弊嫌疑。不过,也不能完全认定所有模型进步都是造假,只是这一现象确实值得警惕。基准测试无法衡量实用性?
当前多数AI基准测试类似标准化考试,由一系列学术难题或软件工程问题组成,测试时间短、任务单一。这类测试就像假设一个人在智商测试中取得高分,就认为其在工作、健康决策等方面也会表现出色一样,忽略了模型在实际复杂任务中的能力。此前,有一个Claude玩《精灵宝可梦》测试,要求模型偶尔回忆半小时前学到的内容,这对模型来说是个难题,而这正是许多实际任务所需的能力。因此,创业者认为,未来评估模型能力,应更多关注类似这样的测试,而非仅依赖传统基准测试。
模型聪明但受对齐问题限制?
以该创业者所在公司业务为例,其公司利用AI模型扫描软件代码库安全问题,而从事此领域工作的应用安全工程师需要处理大量代码的安全问题。对于收到的警报,这些工程师更关注影响正在运行且最好能通过互联网访问的生产服务的问题,因为其他情况要么结果过多难以审查,要么会浪费有限资源去处理可能无实际影响的问题。
然而,现有的聊天模型即使在明确指令下,也难以准确执行任务,常报告一些无关紧要的“潜在”问题。该创业者认为,这并非模型故意不遵循指令,而是其训练目标是在对话中“显得聪明”,也就是说,模型的这种表现是由其训练方式导致的,而不是严格按照特定任务的条件去判断代码是否真的存在安全问题,这一问题体现了模型在与实际应用需求的“对齐”上存在问题。即使模型的智能程度在提高,但由于对齐问题的存在,在实际应用中仍然无法很好地满足特定任务的需求,限制了其在实际场景中的有效应用。
AI模型正逐渐融入社会的各个方面,未来甚至可能成为社会运转的核心。在其广泛应用之前,需要解决这些实际表现与宣传不符、基准测试不合理以及模型与实际需求对齐等问题,否则可能给社会带来难以预料的风险。
参考资料:https://zeropath.com/blog/on-recent-ai-model-progress