模型中转站:9Router,统一管理API密钥+自动切换模型+RTK压缩=省钱80%

工具推荐 1778556462更新

0

你有没有想过一个问题。

你买了GLM的Coding Plan,买了MiniMax的API,买了Claude Code的订阅,还在用OpenAI的点数。

然后呢?

OpenClaw要配一套密钥,Cursor要配一套密钥,Claude Code要配一套密钥,VS Code的Cline又要配一套。

每个工具都要单独配置,每个账号都要单独管理,密钥散落一地。

更要命的是,你发现没有,配额永远不够用。

Claude Code用完了,Cursor还在那闲着。GLM额度用超了,MiniMax还有一堆没用。一边是资源浪费,一边是配额告急。

我当时就在想,这不对劲啊。

为什么不能一个账号的配额用完了,自动切换到另一个?为什么不能统一管理、统一路由、统一监控?

然后我就发现了9router这个项目。

它解决的,就是这个问题。

它本质上就是一个本地运行的AI流量中转站。你所有的AI编程工具,都只需要连接它。它再帮你把请求分发到具体的后端。

┌─────────────────────────────────────────────────────────────┐│                                                              ││   OpenClaw ──→ 9Router ──→ GLM (你的Coding Plan)           ││      │         (中转站)    ──→ MiniMax (备用)               ││      │                     ──→ Kiro (免费Claude 4.5)        ││      │                     ──→ Claude Code (你的订阅)        ││      ↓                                                          ││   配置一次,全网通用                                           ││                                                              │└─────────────────────────────────────────────────────────────┘

你只需要在这个中转站里配置一次你的API密钥,以后所有工具都只需要连这个中转站。

它会自动帮你路由,自动切换,自动压缩token,自动记录用量。

说实话,刚看到这个东西的时候,我就一个感觉,卧槽这也太理所当然了。

为什么这种东西之前没有人做?

它是怎么省钱的?

既然叫中转站,光转发流量那不叫省钱,那叫多此一举。

它省钱的逻辑有两层。

第一层,3-tier自动切换。

你设置一个Combo,可以理解为一个自动档的档位配置:

第一档,主力,用你最强的AI订阅。

第二档,备用,便宜的按量付费AI。

第三档,保底,免费的AI。

举例来说,我的Combo是这样配置的:

主力:cc/claude-opus-4-7(Claude Code订阅,$20/月)

备用:glm/glm-5.1(输入6.5元/百万token)

保底:kilo-auto/free(Kiro免费模型)

工作流程是这样的:Claude Code订阅还有额度的时候,用最强的主力。订阅快用完了,或者出错了,自动切到GLM。GLM也用完了,自动切到Kiro。

整个切换过程是全自动的,你那边的编程工具完全感知不到。

这意味着什么?你不需要再每天盯着配额看,不用手动切换,不用焦虑会不会用超。一切都是自动的,你只管写代码,剩下的交给系统。

第二层,RTK Token节省器。

这个是我见过最离谱的省token方案。

你用AI编程工具的时候,AI需要阅读大量的工具输出。git diff、grep结果、ls列表、tree目录结构,这些内容有时候占你请求token的30%到50%。

RTK会自动检测这些内容,然后压缩它。

举个例子,你执行了一个git diff,原来的输出是:

diff --git a/src/app.jsindex 8f1234a..9b5678c 100644--- a/src/app.js+++ b/src/app.js@@ -1,5 +1,6 @@ function hello() {-  console.log("Hi");+  console.log("Hello World");+  return true; }

压缩之后变成:

[f:src/app.js] [-Hi → +Hello World, +return]

内容量完全一样,但token消耗减少了60%到90%。

这意味着什么?意味着你同样的配额,能用更久。更猛的是,它还支持Caveman模式,压缩AI的输出,最多能节省65%的输出token。

输入压缩加输出压缩,双重省token。

你说这东西省不省钱?我就问你省不省钱?

甚至,如果一分钱都不想花,也有办法。

方案一:NVIDIA NIM免费模型。

NVIDIA提供了免费模型访问,也是最慷慨的,通过NIM端点:

Base URL: https://integrate.api.nvidia.com/v1

可用的,基本能正常响应的有如下几个模型,包括:

  • openai/gpt-oss-120b
  • qwen/qwen3-next-80b-a3b-instruct
  • qwen/qwen3.5-397b-a17b
  • qwen/qwen3.5-122b-a10b
  • nvidia/nemotron-3-nano-omni-30b-a3b-reasoning

方案二:DeepSeek免费聊天转API。

ds2api是一个开源项目,可以把DeepSeek官方免费聊天能力转换成API使用。

这样你就能用DeepSeek的免费模型,通过API方式接入9Router。

方案三:OpenCode和Kilo的免费模型。

minimax-m2.5-free以及kilo-auto/free模型,完全免费。

说了这么多,怎么用起来?

第一步,安装9Router。

它支持Docker安装,一条命令的事:

docker run -d --name 9router -p 20128:20128 -v 9router-data:/app/data 9router

安装完成后,打开浏览器访问 http://localhost:20128 ,初始密码是123456。

第二步,连接模型提供商。

Dashboard点击Providers,找到自己已经订阅的模型提供商。

设置名称,填入API key,同时支持多key。选择模型保存。

第三步,创建Combo。

Dashboard点击Combos,点击Create New。

Name随便取,比如free-forever,Models配置:

主力:kilo-auto/free

备用:minimax-m2.5-free

保底:openai/gpt-oss-120b

保存。

第四步,配置你的编程工具。

主流的编程工具都支持,OpenClaw、Hermes、Claude Code、Cursor、Cline等,直接在9Router的Dashboard里找到对应的工具卡片,选择你刚才创建的Combo,点击Apply,它会自动帮你写入配置文件。

以OpenClaw为例,我用的就是这个。

Dashboard找到OpenClaw那张卡片,选择free-forever,点击Apply。

对于不支持自定义端点的工具,比如Antigravity IDE、GitHub Copilot,9Router还提供了MITM Proxy模式,通过中间人代理的方式拦截流量实现路由。配置稍微复杂一点,但也就装一次,一劳永逸的事情。

最后说两句。

可能有小伙伴说,这东西靠谱吗?

我没法打包票,但9Router本身是开源的,GitHub上7万8千多颗星,还在迅猛增长,社区活跃度很高。

更重要的是,它本地运行,不是在云端,你的数据不经过任何第三方服务器,这个项目只是帮忙转发一下流量,隐私方面应该没什么问题。

说真的,AI编程工具这个领域,信息差太大了。

很多人不知道有免费的Opencode/Kilo模型可以用,不知道有输入6.5元/百万token的GLM便宜替代,不知道token可以压缩,不知道配额可以自动切换。

这篇文章,就是帮你磨平一些信息差。

要不要试试,你自己决定。