👁️ 238

👍 6

📅 2026-06-13 收录

🔄 2026-07-28 更新

ZeroAPI Model Router

🔗 打开网站

🗓 ZeroAPI Model Router

Skills

🚀 访问网站 📁 查看更多

正文内容

ZeroAPI — 订阅制模型路由

将传入任务路由至可用服务商中性能最优的 AI 模型。OpenClaw 负责所有 API 连接 — 本技能定义分类与委派逻辑：按任务类型进行分类，并委派给对应代理/模型。

首次配置

当该技能首次加载时，需确定用户已启用的服务商：

提问：“您拥有哪些 AI 订阅服务？”（Claude Max 5x/20x、ChatGPT Plus/Pro、Gemini Advanced、Kimi）
将订阅映射至可用层级（见下表）
对缺失服务商所对应的层级进行禁用 — 相关决策步骤将被跳过
向用户确认当前生效的配置

若仅 Claude 可用，则所有任务均保留在 Opus 上运行，无需路由；但任务复杂度评估仍需应用冲突解决与协作模式。

为验证配置后各服务商实际可用性，请用户执行以下命令：

openclaw models status

任何显示 missing 或 auth_expired 的模型均不可用。请从您的活跃层级中移除该模型，直至用户修复问题。

如需完整服务商配置说明，请查阅 references/provider-config.md（与本 SKILL.md 文件位于同一目录）。

模型层级

层级	模型	OpenClaw ID	速度	TTFT	智能度	上下文长度	擅长场景
SIMPLE	Gemini 2.5 Flash-Lite	`google-gemini-cli/gemini-2.5-flash-lite`	495 tok/s	0.23s	21.6	1M	低延迟 ping、简单格式化任务
FAST	Gemini 3 Flash	`google-gemini-cli/gemini-3-flash-preview`	206 tok/s	12.75s	46.4	1M	指令遵循、结构化输出、心跳响应
RESEARCH	Gemini 3 Pro	`google-gemini-cli/gemini-3-pro-preview`	131 tok/s	29.59s	48.4	1M	科学研究、长上下文分析
CODE	GPT-5.3 Codex	`openai-codex/gpt-5.3-codex`	113 tok/s	20.00s	51.5	200K	代码生成、数学（99.0）
DEEP	Claude Opus 4.6	`anthropic/claude-opus-4-6`	67 tok/s	1.76s	53.0	200K	推理、规划、判断
ORCHESTRATE	Kimi K2.5	`kimi-coding/k2p5`	39 tok/s	1.65s	46.7	128K	多代理协同编排（TAU-2: 0.959）

关键基准测试得分（越高越好）：

GPQA（科学类）：Gemini Pro 0.908，Opus 0.769，Codex 0.738*
编程能力（SWE-bench）：Codex 49.3*，Opus 43.3，Gemini Pro 35.1
数学能力（AIME '25）：Codex 99.0*，Gemini Flash 97.0，Opus 54.0
指令遵循能力（IFBench）：Gemini Flash 0.780，Opus 0.639，Codex 0.590*
智能体工具调用能力（TAU-2）：Kimi K2.5 0.959，Codex 0.811*，Opus 0.780

标有 * 的分数源自厂商报告，未经独立验证。数据来源：Artificial Analysis API v4（2026 年 2 月）。结构化基准数据详见 benchmarks.json。

决策算法

对每个传入任务，严格按以下 9 步顺序执行判断。首个匹配项即为最终路由目标。若所需模型不可用，则跳过该步，继续检查后续步骤。

Step 1 中的 token 数估算方法：以输入字符数 ÷ 4 估算。100k tokens ≈ 400,000 字符。若用户粘贴大文件、代码库，或表述为“分析整个仓库”，则默认其超出 100k tokens。

步骤	触发信号	路由至	回退选项
1. 上下文 >100k tokens	大文件、长文档、批量处理、CSV、日志转储、整套代码库、“分析此 PDF”	RESEARCH（Pro，1M ctx）	Opus（200K）
2. 数学 / 证明类任务	calculate、solve、equation、proof、integral、probability、optimize、formula	CODE（Codex，Math 99.0）	Flash（97.0）、Opus
3. 编码任务	write code、implement、function、class、refactor、script、migration、test、PR、diff	CODE（Codex，Coding 49.3）	Opus
4. 代码审查 / 架构设计	review、audit、architecture、design、trade-off、security review、best practice	DEEP（Opus，Intel 53.0）	保留在主代理
5. 对速度敏感 / 简单任务	quick、fast、simple、format、convert、summarize、list、extract、translate、one-liner	FAST（Flash，206 tok/s）	Flash-Lite、Opus
6. 研究 / 科学类任务	research、find out、explain、compare、analyze、paper、evidence、fact-check、deep dive	RESEARCH（Pro，GPQA 0.908）	Opus
7. 多步骤工具流水线	orchestrate、coordinate、pipeline、workflow、chain、parallel、fan-out	ORCHESTRATE（Kimi，TAU-2 0.959）	Codex、Opus
8. 结构化输出需求	follow rules exactly、JSON schema、strict template、structured、checklist、table	FAST（Flash，IFBench 0.780）	Opus
9. 默认路由	无明确匹配项	DEEP（Opus，Intel 53.0）	最稳妥的通用选择

Step 5 补充说明：对于亚秒级 TTFT 需求（如 ping、健康检查），使用 SIMPLE（Flash-Lite，TTFT 0.23s）；对于心跳响应和定时任务（cron jobs），使用 FAST（Flash）——其指令遵循能力更强（IFBench 0.780）。

歧义消解示例

当任务同时匹配多个步骤时，按如下规则判定：

“分析这份 200 页 PDF 并为其编写 Python 解析器” → Step 1 优先生效（上下文尺寸），先路由至 RESEARCH；随后将编码子任务委派给 CODE。
“快速解这个积分” → Step 2 优先于 Step 5（数学任务优先级高于速度）。
“为该 API 生成 JSON Schema” → Step 8 优先生效（结构化输出，非编码任务）。
“审查这段代码并重构认证模块” → Step 4 先处理审查，再通过委派交由 CODE 执行重构（Step 3）。

不应路由的情形

禁止在以下情形中将任务路由离开当前模型：

用户明确指定模型。“对此使用 Opus” 或 “不要委派此任务” —— 必须始终尊重直接指令。
安全敏感型任务。若任务涉及凭据、私钥、密钥或个人身份信息（PII），必须保留在主代理上处理，不得将敏感内容发送至子代理。
特定模型调试任务。若用户正在测试或对比不同模型行为，应路由至其指定的模型。
多轮对话中的上下文连续性。在多轮对话中，若用户提出快速后续问题，不应仅因该问题“简单”而切换模型。为保障上下文连贯性，应继续使用当前模型，除非用户显式要求委派。

冲突解决策略

当多个步骤看似同时匹配时，按以下优先级规则裁决：

判断力优于速度。若任务存在模糊性、细微差别或潜在风险，应保留在 Opus。
专家模型优于通用模型。若某模型在该任务类型上有突出的基准分，应优先选用。
编码写作用 Codex，代码审查用 Opus。写与判应由不同模型承担。
上下文溢出仅由 Gemini 处理。仅 Gemini 系列模型支持 1M 上下文长度。
交互式任务重视 TTFT。Flash-Lite（0.23s）、Kimi（1.65s）和 Opus（1.76s）响应迅速；Codex（20s）与 Pro（29.59s）启动缓慢，不适用于快速问答场景。
完全平局时选用 Opus。因其具备最高通用智能度，且发生隐性错误的风险最低。

子代理委派机制

使用 OpenClaw 的代理系统进行委派：

/agent

发送 /agent codex 后，OpenClaw 将基于该指令启动子代理；
子代理在独立 workspace 中运行，并返回纯文本响应；
子代理无法访问您的对话上下文或 workspace 文件 —— 所有必需上下文必须显式包含在指令中。

应传递的内容：具体任务描述、相关代码片段、期望输出格式及约束条件。

示例

/agent codex Write a Python function that parses RFC 3339 timestamps with timezone support. Return only the code.

/agent gemini-researcher Analyze the differences between SQLite WAL mode and journal mode. Include benchmarks and a recommendation.

/agent gemini-fast Convert the following list into a markdown table with columns: Name, Role, Status.

/agent kimi-orchestrator Coordinate: (1) gemini-researcher gathers data on X, (2) codex writes a parser, (3) report results.

错误处理与重试机制

超时（60 秒内无响应）：在同一模型上重试一次；若再次失败，则降级至下一回退模型。
鉴权错误（401/403）：禁止重试 —— 立即降级至下一回退模型，并提示用户重新完成鉴权。参见 references/oauth-setup.md。
速率限制（429）：等待 30 秒后重试一次；若仍受限，则降级至下一回退模型。
部分响应 / 垃圾响应：重试一次；若仍异常，则降级至下一回退模型。
模型不可用：完全跳过该层级，继续后续步骤。

最大重试次数：同一模型最多重试 1 次，之后立即切换至下一回退模型。所有回退路径全部失败后，最终回落至 Opus。全链路总重试次数不得超过 3 次。

触发回退时，应向用户简要说明：

“Codex 当前不可用，已改由 Opus 处理。”

多轮对话中的路由策略

同一主题下的后续消息应保持在同一模型上。上下文连续性的重要性高于模型选型的绝对最优性。
仅当任务类型发生明显变化时才重新路由。例如：用户讨论架构设计（Opus）→ 随后说“现在编写实现” → 将编码任务委派至 Codex。

在对话中途切换模型时：

对当前对话中相关上下文进行摘要；
将该摘要作为委派指令的一部分一并传递；
主代理（Opus）继续运行，并同步知晓子代理已产出的结果。

Workspace 隔离机制

子代理无法读取您的文件 —— 请将内容粘贴进指令中；
子代理无法写入您的 workspace —— 输出仅以纯文本形式返回；
子代理彼此之间完全隔离 —— 设计上即保证零共享。

协作模式

模式	流程	适用场景
Pipeline（流水线）	Research Agent → Main Agent → Code Agent	任务需先收集事实，再实施编码
Parallel + Merge（并行+合并）	主代理同时启动 Code Agent（方案 A）与 Research Agent（方案 B），再合并结果	需探索多种解法，或处于时间压力下
Adversarial Review（对抗式审查）	Code Agent 编写 → Main Agent 批判 → Code Agent 修订	安全敏感或生产关键型代码
Orchestrated（Kimi 编排）	`/agent kimi-orchestrator Plan and execute:`	涉及 3+ 个代理、依赖关系复杂的任务（Kimi：最慢 39 tok/s，但 TAU-2 最高 0.959）

请选择适用于需协调 3 个以上代理、且依赖图复杂的任务。注意：Kimi 吞吐最慢（39 tok/s），但在工具编排方面最强（TAU-2: 0.959）。

回退链（Fallback Chains）

当某模型不可用或遭遇限流时，按可靠性顺序依次降级。

全栈配置（4 家服务商）

任务类型	主用模型	回退 1	回退 2	回退 3
推理类	Opus	Gemini Pro	Codex	Kimi K2.5
编码类	Codex	Opus	Gemini Pro	Kimi K2.5
研究类	Gemini Pro	Opus	Codex	Kimi K2.5
快速响应类	Flash-Lite	Flash	Opus	Codex
智能体协同类	Kimi K2.5	Codex	Gemini Pro	Opus

重要提示：务必采用跨服务商回退策略。同服务商内回退（如 Gemini Pro → Flash）可缓解模型特有问题，但无法应对服务商整体宕机。每条回退链至少应覆盖 2 家不同服务商。

Claude + Gemini（2 家服务商）

任务类型	主用模型	回退 1	回退 2
推理类	Opus	Gemini Pro	—
编码类	Opus	Gemini Pro	—
研究类	Gemini Pro	Opus	—
快速响应类	Flash-Lite	Flash	Opus

Claude + Codex（2 家服务商）

任务类型	主用模型	回退 1
推理类	Opus	Codex
编码类	Codex	Opus
其他所有任务	Opus	Codex

仅 Claude（1 家服务商）

所有任务均路由至 Opus，无需回退。

服务商配置

有关鉴权设置、OAuth 流程（含无头 VPS 支持）、多设备安全性等细节，请查阅 references/oauth-setup.md（与本 SKILL.md 文件位于同一目录）。

有关服务商配置（openclaw.json、各代理专属 models.json、Google Gemini 兼容性补丁），请查阅 references/provider-config.md。

快速参考：

服务商	鉴权方式	维护需求
Anthropic	Setup-token（OAuth）	低 —— 自动刷新
Google Gemini	OAuth（CLI 插件）	极低 —— Token 生命周期极长
OpenAI Codex	OAuth（ChatGPT PKCE）	低 —— 自动刷新
Kimi	静态 API Key	无 —— 永不过期

故障排查

详细故障排查指南请参阅 references/troubleshooting.md（与本 SKILL.md 文件位于同一目录）。常见问题包括：

“No API provider registered for api: undefined” —— 服务商配置中缺少 api 字段
Gemini 订阅出现 “API key not valid” —— API 类型错误；请使用 google-gemini-cli，而非 google-generative-ai
模型状态显示 missing —— 模型 ID 不匹配；正确 ID 应为 gemini-2.5-flash-lite（不含 -preview 后缀）
Codex 返回 401 Unauthorized —— Token 已过期；请按 references/oauth-setup.md 重新执行 OAuth 流程
子代理报错 “Unknown model” —— 该子代理的鉴权配置中缺失对应服务商

成本概览

配置方案	月费	说明
仅 Claude（Max 5x）	$100	无路由，全部由 Opus 处理
仅 Claude（Max 20x）	$200	无路由，享有 20x 速率限制
均衡配置（Max 20x + Gemini）	$220	新增 Flash 速度优势 + Pro 研究能力
专注编码（+ ChatGPT Plus）	$240	新增 Codex 用于编码与数学计算
全栈配置（全部 4 家，含 ChatGPT Plus）	$250	全面专业化能力覆盖
全栈 Pro 配置（全部 4 家，含 ChatGPT Pro）	$430	速率限制达上限

数据来源：Artificial Analysis API v4（2026 年 2 月）。Codex 分数（标 *）根据 OpenAI 官方博客数据估算。结构化基准数据详见 references/benchmarks.json。

参考资料

文件	内容
[references/oauth-setup.md](references/oauth-setup.md)	鉴权配置、OAuth 流程、多设备安全性说明
[references/provider-config.md](references/provider-config.md)	`openclaw.json`、各代理 `models.json`、Gemini 兼容性补丁
[references/troubleshooting.md](references/troubleshooting.md)	常见错误与解决方案
[references/benchmarks.json](references/benchmarks.json)	所有模型原始基准测试数据