前沿资讯
1770891842更新
2
你用ChatGPT做什么?写文案?查资料?陪聊?
得了吧。这些用法,相当于拿一台超算来玩扫雷。
最近有个实验,可能改变你对AI的认知。智谱的GLM5,在没有任何人盯着的情况下,独自跑了24小时,完成了700多次工具调用,经历了800多次上下文切换。它从零开始,手搓了一个Game Boy Advance模拟器。
这不是写一个Hello World。GBA模拟器涉及CPU指令集、内存管理、图形渲染、音视频子系统,一个真实工程项目的全部复杂度。
而它,是一个人完成的。

体验链接:https://e01.ai/gba/
承认吧。现在绝大多数AI,包括ChatGPT,都有个致命问题:它是个金鱼记忆。
你让它写一个函数,没问题。你让它写一个模块,勉强可以。你让它写一个完整项目试试?写到第三百行,它已经忘了第一 hundred行在干什么。业内管这叫上下文漂移(Context Drifting):AI在长程任务中会逐渐偏离原始目标,忘记指令,开始胡编。
这就是为什么所有人都在晒AI写的诗,但没几个人敢让AI独立完成一个真实项目。
官方产品很强,这点不否认。ChatGPT很聪明,Claude很优雅,Gemini很有潜力。但它们都有一个共同点:你得盯着。你得像监工一样一句句嘱咐它,稍微复杂点的任务就得手动干预。它是副驾驶,不是驾驶员。
问题是:副驾驶不值钱。
真正值钱的,是那种你睡觉时还在干活、第二天早上给你交作业的AI。
GLM5这次测试,暴露了一个被严重低估的能力:长程一致性(Long-horizon Consistency)。
所谓长程一致性,就是AI在几百次工具调用、几百次上下文切换之后,还能保持和第一条指令一样的执行标准。不会因为任务变长就犯错,不会因为状态变多就遗忘,不会因为遇到困难就摆烂。
这是官方不敢做的事。
你见过OpenAI官方宣传过"我们的模型可以连续跑24小时"吗?没有。因为他们不敢保证。你见过Anthropic说"Claude可以无人值守完成复杂工程任务"吗?也没有。因为他们知道做不到。
但GLM5做到了。
不是平替,而是升级。这句话说烂了,但用在这次测试上一点不为过。
测试团队给GLM5的任务是:从零开始,用JavaScript写一个GBA模拟器,并且嵌到一个3D渲染场景里。
这是一个什么概念?相当于让一个初级工程师独立完成一个完整的嵌入式系统项目。CPU指令集实现、内存分页、DMA传输、图形处理单元、音频子系统,每一个模块单独拿出来都够写一篇论文。
GLM5的表现:
- 700多次工具调用,零异常。从第一个调用到第七百个,稳定性完全一致。
- 800多次上下文切换,指令不衰减。最初定义的代码规范、测试标准、命名约定,到最后还在严格遵守。
- 每次上下文重建,状态完整恢复。它会自己读取进度笔记,像真正的工程师交接工作一样无缝衔接。
顺带提一句,测试团队还拿上一代模型做了对比。结果毫无悬念:上一代模型要么陷入循环(micro和macro loop都来了一遍),要么逐渐忘记原始目标,最严重的是直接挂在错误的工具调用上。
这不是能力差距。这是代际差距。
1. 真正的“无人值守”
ChatGPT有使用限制,Claude有速率限制,Gemini有上下文窗口限制。你想让它跑24小时?门都没有。
GLM5可以。只要API够,只要显存撑得住,它可以一直跑下去。这意味着什么?一个AI同时监管五个agent,每个agent在不同模块上干活,你只需要早上分配任务,晚上回来验收。这不是5倍生产力,这是完全不同的工作模式。
2. 超长上下文的“断点续传”
正常AI的上下文是“用完就扔”。GLM5的玩法是:把上下文写在文件里。
每个session结束,它会自动更新进度文档:完成了什么、下一步做什么、有哪些卡点。下一次session启动时,它第一件事就是读取这些文档,恢复工作状态。测试团队称之为“Notes Protocol”,这可能是整个实验中最值钱的工程实践。
上下文不是消失了,而是变成了可持久化的工程文档。
3. 工具调用的“鲁棒性”
很多AI有个问题:工具调用越多,出错概率越高。像滚雪球一样,越滚越大,最后崩盘。
GLM5不一样。700次工具调用,零降级。这意味着它可以真正替代人类工程师的执行环节:写代码、编译、测试、报错、分析、改错、再测试。循环往复,直到通过。
这代表了什么趋势?
从Copilot到Autonomous Agent。

过去的AI是“副驾驶”——你开车,它指路。你得全程握着方向盘。
现在的AI是“外包团队”——你给需求,它给成品。你只需要在关键节点验收。
未来的AI是什么?是CTO(首席技术官)——你给战略,它制定执行方案,分发给下面的agent去干活。
这个趋势的代价是:AI的评估标准将从“对话质量”转向“任务完成率”。以前我们问“这个AI聊得好不好”,以后我们问“这个AI能不能让我睡个好觉,醒来项目写完了”。
这是工具属性的根本转变。订阅制那一套,在真正的生产力工具面前,不堪一击。
测试团队在总结里写了一句话,非常有意思:
"The era of AI as a conversation has been transformative. The era of AI as an engineering process — running in background, picking up where it left off, steadily closing on a goal — feels like it's just getting started."
翻译成人话就是:AI从能说会道,变成沉默寡言的实干家。这才刚刚开始。
AI正在经历从“玩具”到“工具”的关键跃迁。
如果你还把AI当作聊天机器人,那你可能正在错过它最值钱的那个部分。
_GLM5不是终点。24小时的长任务跑通,只是起点。
参考资料:https://blog.e01.ai/glm5-gameboy-and-long-task-era-64db7074a026
豫公网安备41010702003375号