前沿资讯
1766487001更新
0
导读:MiniMax发布首个全面编码基准测试VIBE-Bench,不仅涵盖Web开发,还覆盖Android、iOS和后端工作流程。更重要的是,它通过智能体直接操作运行环境,从“能不能跑”“好不好用”“好不好看”三个层面,评估AI从0到1完成应用的真实能力。
MiniMax宣布推出VIBE-Bench(Visual & Interactive Benchmark for Execution,视觉与交互执行基准),这是面向应用开发的新评测体系。与传统依赖静态截图或流程描述的评测不同,VIBE-Bench直接将智能体投入真实运行环境,检验AI能否独立交付可用应用。
过去的评测更多停留在静态层面,应用看似完成,但是否能跑、是否好用,难以验证。VIBE-Bench选择了一条更直接的路:把生成的项目部署到容器化沙箱环境,派出“会看、会点、会判断”的智能体进行完整测试。
这套方法被称为 “验证者即智能体(Agent-as-a-Verifier,AaaV)”。智能体会主动操作界面、点击按钮,并结合视觉能力,判断整体体验是否达标。

VIBE-Bench从三个递进层级评估AI开发能力:
- 执行(Execution):项目能否顺利编译、启动,不报致命错误
- 交互(Interactive):功能是否符合需求,用户操作下逻辑是否稳定
- 视觉(Visual):界面布局是否专业,视觉效果是否一致、自然
这三个维度合在一起,指向的是“能交付”的应用,而不是只能展示的Demo。
VIBE-Bench的任务设计很全面,共包含200个高质量任务,覆盖五个方向:
- Web:高审美要求、复杂交互的前端应用
- Simulation:物理、化学、计算机等高保真科学模拟
- Android:原生Android开发(Kotlin / Java)
- iOS:原生iOS开发(Swift / Objective-C)
- Backend:关注API完整性和系统架构的后端服务
每个方向按简单 / 中等 / 困难划分,保证评测结果全面客观。
目前,VIBE-Bench已发布第一阶段内容,包括完整任务描述和结构化元数据。后续计划:
- 第一阶段:任务与评测问题定义(已发布,2025年12月)
- 第二阶段:容器化运行环境与Docker镜像(预计2026年1月)
- 第三阶段:智能体验证脚本与评分流程开源(预计2026年1月)
未来开发者不仅能用VIBE-Bench“看结果”,还能复现整个评测过程。
整体来看,VIBE-Bench关注的不是“AI会不会写代码”,而是“能不能交付应用”。它为AI全栈开发能力提供了真实、可量化的评测标准,从0到1检验AI的实战能力。
如果说过去的评测是在看“理解能力”,那么VIBE-Bench更像是上岗测试。AI到底能否独立完成一个像样的应用,答案或许从这套基准开始更加清晰。
项目链接:https://huggingface.co/datasets/MiniMaxAI/VIBE
豫公网安备41010702003375号