OpenClaw版"安兔兔"来了：BenchClaw，一条命令给你的龙虾打分，用数据告诉你最优“性价比”模型-AI工具推荐-AI工具导航

提交工具关于我们

OpenClaw版"安兔兔"来了：BenchClaw，一条命令给你的龙虾打分，用数据告诉你最优“性价比”模型

工具推荐 1776253628更新

用 OpenClaw 有一段时间了，之前用 Claude Sonnet 4.6 跑起来确实顺手。

直到我看到那个月的账单——1000 多块。

说实话，除了肉疼还是肉疼。

隔壁老王用的是 Kimi K2.5，每月才 100 出头？

差了快 10 倍了。

我开始琢磨：我是不是花冤枉钱了？我的配置是不是有问题？

但想了半天，没有答案。

因为也不知道我的 OpenClaw 到底处在一个什么水平。

直到这两天，我发现了一个 BenchClaw 项目。

BenchClaw 是一个面向 OpenClaw Agent 的自动化基准评测系统。

它会使用考题，指导 Openclaw 执行任务，然后收集结果、验证打分，最后生成一份报告。

一条命令，25 道题，把你的 OpenClaw 完整测一遍。

BenchClaw 会从 5 个维度 对你的 OpenClaw 进行评测：

维度	权重	测什么
🧠 能力	25%	多步推理、复杂规划、错误恢复
⚡ 性能	25%	TTFT、Tokens/s、资源占用、稳定性
💰 成本	25%	Token 消耗、月成本预估、性价比
⚙️ 配置	25%	Skills 完整度、PAI 路由、环境配置
🔐 安全	25%	代码注入防护、权限隔离、恶意扫描

跑完测试，你会得到一个 总分 + 五维子分。

🏆 BenchClaw 综合得分：79,915 分🧠 能力：   280/500  (93%)  ████████░░⚡ 性能：   450/500  (90%)  ████████░░💰 成本：   400/500  (80%)  ████████░░⚙️ 配置：   380/500  (76%)  ███████░░░🔐 安全：   490/500  (98%)  █████████░榜单排名：#42 / 1,234 次提交

除了分数，BenchClaw 还有一个三维诊断，帮你找瓶颈。

朋友老李跑完是这么个情况：

🔍 三维瓶颈诊断🤖 模型速度：1,850 TPS → 🟡 偏慢   建议：可尝试更轻量的推理模型🌐 网络延迟：285ms → 🟠 较高   建议：考虑切换到延迟更低的 API 节点💻 硬件资源：CPU 78% / 内存 1.2GB → 🟡 紧张   建议：关闭其他程序或升级配置

他后来把节点换到新加坡，网络延迟直接掉到 85ms，综合得分还涨了 15%。

怎么跑？

官方给了两种方式。

方式一：用 Skill 安装（推荐）

openclaw skills install benchclaw/run benchclaw

装完直接跑，评测前会问你几个问题，比如要不要上榜单。

确认了就开测，测完自动通知你。

方式二：手动装

cd ~/.openclaw/workspace/skillsgit clone https://github.com/BenchClaw/benchclaw.gitcd benchclawpython main.py

官方还回答了一些常见问题：

Q：评测需要多久？

A：10-60 分钟，取决于你的模型速度和网络状况。

Q：会消耗多少 token？

A：约 2-3M tokens，会产生一定的 API 费用。

Q：我的数据安全吗？

A：BenchClaw 采用端到端加密传输，设备指纹机制防止刷分，每台设备每 24 小时限跑 3 次。

Q：分数低了怎么办？

A：BenchClaw 会诊断出你的龙虾短板在哪。

写在最后。

当你跑完测试，看到总分数和各项维度得分，你将会对自己的 OpenClaw 有一个客观的认知。

如果，你的能力得分很高，但成本得分很低，

那就值得研究一下为什么 token 消耗这么大。

如果你的配置得分不高，但性能得分很高，

那说明你的硬件不错，但软件配置还有优化空间。

每个人估计都会有自己的答案。

现在就发给你的小龙虾：帮我安装 BenchClaw Skill，跑一下测试，看看你的能力怎么样。

Clawhub：benchclaw

官网：https://benchclaw.antutu.com

GitHub：https://github.com/BenchClaw/benchclaw

你跑分了吗？跑了多少分？欢迎在评论区分享 ~~