网传Meta Llama 4训练存严重问题，各方回应真假难辨-AI前沿快讯-AI工具导航

网传Meta Llama 4训练存严重问题，各方回应真假难辨

一则有关Meta公司Llama 4训练的爆料在网络上掀起轩然大波。该爆料最初源自一个中文论坛，发帖人自称是Meta内部人员，且目前在学术界任职。据其透露，研发团队对Llama 4进行了多次训练，但内部模型的性能表现依旧未能达到开源模型的最优基准（SOTA），与业界领先水平相比存在显著差距。

为了让Llama 4在各项指标上达到“能拿得出手”的结果，Meta领导提出在训练后期将多个基准测试集进行混合的方案。这种做法的目的是通过整合不同测试集的优势，使模型在各类评估指标上满足预期目标。并且，公司设定了4月底的严格期限，若无法在截止日期前达成目标，将会产生严重后果。然而，这种做法被发帖人认为是严重违反学术和行业规范的行为，作为学术界的一员，他对此深感不齿，因此选择提交辞职申请，并明确要求将自己的名字从Llama 4的技术报告中剔除。

该消息一经曝光，迅速在网络上引发热议。众多网友纷纷参与讨论，其中关于在训练过程中使用测试集数据的行为是否属于欺诈成为争论焦点。有不少网友指出，基准测试的核心意义在于衡量模型对知识的泛化能力，也就是模型能否将所学知识应用到更广泛的场景中。如果模型只是单纯地记忆测试集的答案，那么这样的测试结果就无法真实反映其对知识的理解和应用水平，这种行为严重破坏了模型评估的公正性。例如，在机器学习领域，一个优秀的模型应该具备举一反三的能力，就像学生学习数学，不能仅仅死记硬背例题答案，而要真正理解数学原理，才能在遇到新的题目时正确解答。但也有部分网友对爆料内容持怀疑态度，他们认为Meta的“公司领导”大多是人工智能领域的先驱人物，在行业内拥有极高的声誉，不太可能为了追求基准测试分数而自毁前程，做出这种损害自身和公司声誉的行为。

随着Llama 4的发布，更多问题浮出水面。许多X（原推特）和Reddit平台的用户反馈，Llama 4在实际使用中的测试结果令人大失所望,这一情况似乎从侧面印证了爆料中关于模型性能不佳的说法。与此同时，Meta AI研究部门的副总裁Joelle Pineau宣布离职，这一消息更是加剧了外界对Llama 4项目的质疑，不少人猜测她的离职或许与Llama 4训练问题存在关联。但随后有网友澄清，Joelle Pineau来自FAIR部门，而负责Llama模型开发的是GenAI部门，两者在组织架构、工作内容等方面存在明显差异，Joelle Pineau的离职与Llama 4训练并无直接联系。

针对此次爆料，Meta GenAI的员工也迅速做出回应。员工Di Jin明确反驳了帖子中关于在训练中使用测试集的说法，强调该内容不实。另一位员工Licheng Yu更是实名否认这一指控，Licheng Yu表示自己亲自参与了两个开源模型的后期训练工作，在整个过程中，团队从未为了提高分数而过度拟合测试集。Licheng Yu还公开邀请爆料者指出具体是哪些测试集提示被用于训练，如果确有其事，他愿意向公众鞠躬道歉，以此表明自己和团队的清白。

目前，该爆料的真实性尚未得到Meta官方的证实。此次事件让公众对Meta在人工智能领域的发展产生了诸多猜测。如果爆料内容属实，那么Meta在模型训练的规范性和公司管理层面可能存在严重问题，这不仅会影响Llama系列模型的未来发展，还可能对Meta在人工智能市场的地位造成冲击，若爆料是毫无根据的假消息，则可能是恶意造谣，故意诋毁Meta。

参考资料：https://www.reddit.com/r/LocalLLaMA/comments/1jt8yug/serious_issues_in_llama_4_training_i_have/

https://www.1point3acres.com/bbs/thread-1122600-1-1.html