OpenClaw版"安兔兔"来了:BenchClaw,一条命令给你的龙虾打分,用数据告诉你最优“性价比”模型

工具推荐 1776253628更新

0

用 OpenClaw 有一段时间了,之前用 Claude Sonnet 4.6 跑起来确实顺手。

直到我看到那个月的账单——1000 多块。

说实话,除了肉疼还是肉疼。

隔壁老王用的是 Kimi K2.5,每月才 100 出头?

差了快 10 倍了。

我开始琢磨:我是不是花冤枉钱了?我的配置是不是有问题?

但想了半天,没有答案。

因为也不知道我的 OpenClaw 到底处在一个什么水平。

直到这两天,我发现了一个 BenchClaw 项目。

BenchClaw 是一个面向 OpenClaw Agent 的自动化基准评测系统。

它会使用考题,指导 Openclaw 执行任务,然后收集结果、验证打分,最后生成一份报告。

一条命令,25 道题,把你的 OpenClaw 完整测一遍。

BenchClaw 会从 5 个维度 对你的 OpenClaw 进行评测:

维度权重测什么
🧠 能力25%多步推理、复杂规划、错误恢复
⚡ 性能25%TTFT、Tokens/s、资源占用、稳定性
💰 成本25%Token 消耗、月成本预估、性价比
⚙️ 配置25%Skills 完整度、PAI 路由、环境配置
🔐 安全25%代码注入防护、权限隔离、恶意扫描

跑完测试,你会得到一个 总分 + 五维子分

🏆 BenchClaw 综合得分:79,915 分🧠 能力:   280/500  (93%)  ████████░░⚡ 性能:   450/500  (90%)  ████████░░💰 成本:   400/500  (80%)  ████████░░⚙️ 配置:   380/500  (76%)  ███████░░░🔐 安全:   490/500  (98%)  █████████░榜单排名:#42 / 1,234 次提交

除了分数,BenchClaw 还有一个三维诊断,帮你找瓶颈。

朋友老李跑完是这么个情况:

🔍 三维瓶颈诊断🤖 模型速度:1,850 TPS → 🟡 偏慢   建议:可尝试更轻量的推理模型🌐 网络延迟:285ms → 🟠 较高   建议:考虑切换到延迟更低的 API 节点💻 硬件资源:CPU 78% / 内存 1.2GB → 🟡 紧张   建议:关闭其他程序或升级配置

他后来把节点换到新加坡,网络延迟直接掉到 85ms,综合得分还涨了 15%。

怎么跑?

官方给了两种方式。

方式一:用 Skill 安装(推荐)

openclaw skills install benchclaw/run benchclaw

装完直接跑,评测前会问你几个问题,比如要不要上榜单。

确认了就开测,测完自动通知你。

方式二:手动装

cd ~/.openclaw/workspace/skillsgit clone https://github.com/BenchClaw/benchclaw.gitcd benchclawpython main.py

官方还回答了一些常见问题:

Q:评测需要多久?

A:10-60 分钟,取决于你的模型速度和网络状况。

Q:会消耗多少 token?

A:约 2-3M tokens,会产生一定的 API 费用。

Q:我的数据安全吗?

A:BenchClaw 采用端到端加密传输,设备指纹机制防止刷分,每台设备每 24 小时限跑 3 次。

Q:分数低了怎么办?

A:BenchClaw 会诊断出你的龙虾短板在哪。

写在最后。

当你跑完测试,看到总分数和各项维度得分,你将会对自己的 OpenClaw 有一个客观的认知。

如果,你的能力得分很高,但成本得分很低,

那就值得研究一下为什么 token 消耗这么大。

如果你的配置得分不高,但性能得分很高,

那说明你的硬件不错,但软件配置还有优化空间。

每个人估计都会有自己的答案。

现在就发给你的小龙虾:帮我安装 BenchClaw Skill,跑一下测试,看看你的能力怎么样。


Clawhub:benchclaw

官网:https://benchclaw.antutu.com

GitHub:https://github.com/BenchClaw/benchclaw

你跑分了吗?跑了多少分?欢迎在评论区分享 ~~