MiniMax推出VIBE-Bench，用“会操作的智能体”评测AI全栈开发能力-AI前沿快讯-AI工具导航

MiniMax推出VIBE-Bench，用“会操作的智能体”评测AI全栈开发能力

导读：MiniMax发布首个全面编码基准测试VIBE-Bench，不仅涵盖Web开发，还覆盖Android、iOS和后端工作流程。更重要的是，它通过智能体直接操作运行环境，从“能不能跑”“好不好用”“好不好看”三个层面，评估AI从0到1完成应用的真实能力。

MiniMax宣布推出VIBE-Bench（Visual & Interactive Benchmark for Execution，视觉与交互执行基准），这是面向应用开发的新评测体系。与传统依赖静态截图或流程描述的评测不同，VIBE-Bench直接将智能体投入真实运行环境，检验AI能否独立交付可用应用。

过去的评测更多停留在静态层面，应用看似完成，但是否能跑、是否好用，难以验证。VIBE-Bench选择了一条更直接的路：把生成的项目部署到容器化沙箱环境，派出“会看、会点、会判断”的智能体进行完整测试。

这套方法被称为 “验证者即智能体（Agent-as-a-Verifier，AaaV）”。智能体会主动操作界面、点击按钮，并结合视觉能力，判断整体体验是否达标。

VIBE-Bench从三个递进层级评估AI开发能力：

执行（Execution）：项目能否顺利编译、启动，不报致命错误
交互（Interactive）：功能是否符合需求，用户操作下逻辑是否稳定
视觉（Visual）：界面布局是否专业，视觉效果是否一致、自然

这三个维度合在一起，指向的是“能交付”的应用，而不是只能展示的Demo。

VIBE-Bench的任务设计很全面，共包含200个高质量任务，覆盖五个方向：

Web：高审美要求、复杂交互的前端应用
Simulation：物理、化学、计算机等高保真科学模拟
Android：原生Android开发（Kotlin / Java）
iOS：原生iOS开发（Swift / Objective-C）
Backend：关注API完整性和系统架构的后端服务

每个方向按简单 / 中等 / 困难划分，保证评测结果全面客观。

目前，VIBE-Bench已发布第一阶段内容，包括完整任务描述和结构化元数据。后续计划：

第一阶段：任务与评测问题定义（已发布，2025年12月）
第二阶段：容器化运行环境与Docker镜像（预计2026年1月）
第三阶段：智能体验证脚本与评分流程开源（预计2026年1月）

未来开发者不仅能用VIBE-Bench“看结果”，还能复现整个评测过程。

整体来看，VIBE-Bench关注的不是“AI会不会写代码”，而是“能不能交付应用”。它为AI全栈开发能力提供了真实、可量化的评测标准，从0到1检验AI的实战能力。

如果说过去的评测是在看“理解能力”，那么VIBE-Bench更像是上岗测试。AI到底能否独立完成一个像样的应用，答案或许从这套基准开始更加清晰。

项目链接：https://huggingface.co/datasets/MiniMaxAI/VIBE