顶尖人工智能研究人员认为:语言模型存在局限性

前沿资讯 1750071197更新

0

在OpenAI、Anthropic等公司狂卷大语言模型(LLM)的当下,斯坦福大学教授李飞飞与Meta首席AI科学家杨立昆(Yann LeCun)正带领团队研发"世界模型"(World Models),试图让机器真正理解三维现实世界。

大语言模型本质上是个"超级文字预测器",它通过分析海量文本里的词汇关联来生成回答,但李飞飞在a16z播客中指出:"语言并非自然存在,人类能构建文明,靠的远不止语言。"MIT教授Jay Wright Forrester早在1971年就提出:人类所有决策都基于脑中的"模型",就像我们不会在脑子里装下真实的城市,而是用概念和关系来抽象表征。

2024年,李飞飞联合风投机构创立World Labs,带着2.3亿美元启动资金喊出目标:把AI从二维像素平面提升到三维世界,赋予其和人类一样的空间智能。"空间智能是理解、推理、互动并生成三维世界的能力。"李飞飞在NoPriors播客中解释。这种技术可能率先落地创意领域、机器人控制,甚至像Meta和Anduril等公司设想的那样,用于军事场景,帮助士兵在战场上预判敌情。

但最大瓶颈在于数据:人类花了几个世纪积累语言文本,可空间智能的数据却极度匮乏。"现在闭眼画你周围的3D模型,没经过训练的人很难做到。"李飞飞坦言,这需要更复杂的数据工程,从采集到合成全链条突破。

在Meta,杨立昆的团队用视频数据训练模型,通过多层抽象把画面转化为简化表征。"关键是不预测像素级细节,而是在抽象层面建模,过滤掉不可预测的噪音。"他在巴黎AI峰会上解释,这样就能用更简单的"积木块"来推演世界变化轨迹。

“真正的智能系统必须快速学习新任务、理解物理世界、具备常识推理和长期记忆,这些都是大语言模型目前的短板。就像人类婴儿通过玩积木理解空间规律,AI也需要在模拟环境中构建世界运行规则。”

当硅谷还在为GPT-5的参数竞赛狂欢时,这些学者已把目光投向更底层的认知革命。世界模型或许不会像ChatGPT那样一夜爆红,但它可能是AI从"会说话"到"懂生活"的关键一跃。

参考资料:https://www.msn.com/en-us/news/technology/top-ai-researchers-say-language-is-limiting-heres-the-new-kind-of-model-they-are-building-instead/ar-AA1GDW1t