别再沉迷跟ChatGPT聊天了：GLM5已经独自跑了24小时，手搓了一个GBA模拟器-AI前沿快讯-AI工具导航

别再沉迷跟ChatGPT聊天了：GLM5已经独自跑了24小时，手搓了一个GBA模拟器

你用ChatGPT做什么？写文案？查资料？陪聊？

得了吧。这些用法，相当于拿一台超算来玩扫雷。

最近有个实验，可能改变你对AI的认知。智谱的GLM5，在没有任何人盯着的情况下，独自跑了24小时，完成了700多次工具调用，经历了800多次上下文切换。它从零开始，手搓了一个Game Boy Advance模拟器。

这不是写一个Hello World。GBA模拟器涉及CPU指令集、内存管理、图形渲染、音视频子系统，一个真实工程项目的全部复杂度。

而它，是一个人完成的。

体验链接：https://e01.ai/gba/

承认吧。现在绝大多数AI，包括ChatGPT，都有个致命问题：它是个金鱼记忆。

你让它写一个函数，没问题。你让它写一个模块，勉强可以。你让它写一个完整项目试试？写到第三百行，它已经忘了第一 hundred行在干什么。业内管这叫上下文漂移（Context Drifting）：AI在长程任务中会逐渐偏离原始目标，忘记指令，开始胡编。

这就是为什么所有人都在晒AI写的诗，但没几个人敢让AI独立完成一个真实项目。

官方产品很强，这点不否认。ChatGPT很聪明，Claude很优雅，Gemini很有潜力。但它们都有一个共同点：你得盯着。你得像监工一样一句句嘱咐它，稍微复杂点的任务就得手动干预。它是副驾驶，不是驾驶员。

问题是：副驾驶不值钱。

真正值钱的，是那种你睡觉时还在干活、第二天早上给你交作业的AI。

GLM5这次测试，暴露了一个被严重低估的能力：长程一致性（Long-horizon Consistency）。

所谓长程一致性，就是AI在几百次工具调用、几百次上下文切换之后，还能保持和第一条指令一样的执行标准。不会因为任务变长就犯错，不会因为状态变多就遗忘，不会因为遇到困难就摆烂。

这是官方不敢做的事。

你见过OpenAI官方宣传过"我们的模型可以连续跑24小时"吗？没有。因为他们不敢保证。你见过Anthropic说"Claude可以无人值守完成复杂工程任务"吗？也没有。因为他们知道做不到。

但GLM5做到了。

不是平替，而是升级。这句话说烂了，但用在这次测试上一点不为过。

测试团队给GLM5的任务是：从零开始，用JavaScript写一个GBA模拟器，并且嵌到一个3D渲染场景里。

这是一个什么概念？相当于让一个初级工程师独立完成一个完整的嵌入式系统项目。CPU指令集实现、内存分页、DMA传输、图形处理单元、音频子系统，每一个模块单独拿出来都够写一篇论文。

GLM5的表现：

700多次工具调用，零异常。从第一个调用到第七百个，稳定性完全一致。
800多次上下文切换，指令不衰减。最初定义的代码规范、测试标准、命名约定，到最后还在严格遵守。
每次上下文重建，状态完整恢复。它会自己读取进度笔记，像真正的工程师交接工作一样无缝衔接。

顺带提一句，测试团队还拿上一代模型做了对比。结果毫无悬念：上一代模型要么陷入循环（micro和macro loop都来了一遍），要么逐渐忘记原始目标，最严重的是直接挂在错误的工具调用上。

这不是能力差距。这是代际差距。

1. 真正的“无人值守”

ChatGPT有使用限制，Claude有速率限制，Gemini有上下文窗口限制。你想让它跑24小时？门都没有。

GLM5可以。只要API够，只要显存撑得住，它可以一直跑下去。这意味着什么？一个AI同时监管五个agent，每个agent在不同模块上干活，你只需要早上分配任务，晚上回来验收。这不是5倍生产力，这是完全不同的工作模式。

2. 超长上下文的“断点续传”

正常AI的上下文是“用完就扔”。GLM5的玩法是：把上下文写在文件里。

每个session结束，它会自动更新进度文档：完成了什么、下一步做什么、有哪些卡点。下一次session启动时，它第一件事就是读取这些文档，恢复工作状态。测试团队称之为“Notes Protocol”，这可能是整个实验中最值钱的工程实践。

上下文不是消失了，而是变成了可持久化的工程文档。

3. 工具调用的“鲁棒性”

很多AI有个问题：工具调用越多，出错概率越高。像滚雪球一样，越滚越大，最后崩盘。

GLM5不一样。700次工具调用，零降级。这意味着它可以真正替代人类工程师的执行环节：写代码、编译、测试、报错、分析、改错、再测试。循环往复，直到通过。

这代表了什么趋势？

从Copilot到Autonomous Agent。

过去的AI是“副驾驶”——你开车，它指路。你得全程握着方向盘。

现在的AI是“外包团队”——你给需求，它给成品。你只需要在关键节点验收。

未来的AI是什么？是CTO（首席技术官）——你给战略，它制定执行方案，分发给下面的agent去干活。

这个趋势的代价是：AI的评估标准将从“对话质量”转向“任务完成率”。以前我们问“这个AI聊得好不好”，以后我们问“这个AI能不能让我睡个好觉，醒来项目写完了”。

这是工具属性的根本转变。订阅制那一套，在真正的生产力工具面前，不堪一击。

测试团队在总结里写了一句话，非常有意思：

"The era of AI as a conversation has been transformative. The era of AI as an engineering process — running in background, picking up where it left off, steadily closing on a goal — feels like it's just getting started."

翻译成人话就是：AI从能说会道，变成沉默寡言的实干家。这才刚刚开始。

AI正在经历从“玩具”到“工具”的关键跃迁。

如果你还把AI当作聊天机器人，那你可能正在错过它最值钱的那个部分。

_GLM5不是终点。24小时的长任务跑通，只是起点。

参考资料：https://blog.e01.ai/glm5-gameboy-and-long-task-era-64db7074a026