👁️ 185
👍 6
📅 2026-06-13 收录
🔄 2026-06-13 更新

正文内容

ZeroAPI — 订阅制模型路由

将传入任务路由至可用服务商中性能最优的 AI 模型。OpenClaw 负责所有 API 连接 — 本技能定义分类与委派逻辑:按任务类型进行分类,并委派给对应代理/模型。

首次配置

当该技能首次加载时,需确定用户已启用的服务商:

  1. 提问:“您拥有哪些 AI 订阅服务?”(Claude Max 5x/20x、ChatGPT Plus/Pro、Gemini Advanced、Kimi)
  2. 将订阅映射至可用层级(见下表)
  3. 对缺失服务商所对应的层级进行禁用 — 相关决策步骤将被跳过
  4. 向用户确认当前生效的配置

若仅 Claude 可用,则所有任务均保留在 Opus 上运行,无需路由;但任务复杂度评估仍需应用冲突解决与协作模式。

为验证配置后各服务商实际可用性,请用户执行以下命令:

openclaw models status

任何显示 missingauth_expired 的模型均不可用。请从您的活跃层级中移除该模型,直至用户修复问题。

如需完整服务商配置说明,请查阅 references/provider-config.md(与本 SKILL.md 文件位于同一目录)。

模型层级

层级 模型 OpenClaw ID 速度 TTFT 智能度 上下文长度 擅长场景
SIMPLE Gemini 2.5 Flash-Lite google-gemini-cli/gemini-2.5-flash-lite 495 tok/s 0.23s 21.6 1M 低延迟 ping、简单格式化任务
FAST Gemini 3 Flash google-gemini-cli/gemini-3-flash-preview 206 tok/s 12.75s 46.4 1M 指令遵循、结构化输出、心跳响应
RESEARCH Gemini 3 Pro google-gemini-cli/gemini-3-pro-preview 131 tok/s 29.59s 48.4 1M 科学研究、长上下文分析
CODE GPT-5.3 Codex openai-codex/gpt-5.3-codex 113 tok/s 20.00s 51.5 200K 代码生成、数学(99.0)
DEEP Claude Opus 4.6 anthropic/claude-opus-4-6 67 tok/s 1.76s 53.0 200K 推理、规划、判断
ORCHESTRATE Kimi K2.5 kimi-coding/k2p5 39 tok/s 1.65s 46.7 128K 多代理协同编排(TAU-2: 0.959)

关键基准测试得分(越高越好):

  • GPQA(科学类):Gemini Pro 0.908,Opus 0.769,Codex 0.738*
  • 编程能力(SWE-bench):Codex 49.3*,Opus 43.3,Gemini Pro 35.1
  • 数学能力(AIME '25):Codex 99.0*,Gemini Flash 97.0,Opus 54.0
  • 指令遵循能力(IFBench):Gemini Flash 0.780,Opus 0.639,Codex 0.590*
  • 智能体工具调用能力(TAU-2):Kimi K2.5 0.959,Codex 0.811*,Opus 0.780

标有 * 的分数源自厂商报告,未经独立验证。数据来源:Artificial Analysis API v4(2026 年 2 月)。结构化基准数据详见 benchmarks.json

决策算法

对每个传入任务,严格按以下 9 步顺序执行判断。首个匹配项即为最终路由目标。若所需模型不可用,则跳过该步,继续检查后续步骤。

Step 1 中的 token 数估算方法:以输入字符数 ÷ 4 估算。100k tokens ≈ 400,000 字符。若用户粘贴大文件、代码库,或表述为“分析整个仓库”,则默认其超出 100k tokens。

步骤 触发信号 路由至 回退选项
1. 上下文 >100k tokens 大文件、长文档、批量处理、CSV、日志转储、整套代码库、“分析此 PDF” RESEARCH(Pro,1M ctx) Opus(200K)
2. 数学 / 证明类任务 calculate、solve、equation、proof、integral、probability、optimize、formula CODE(Codex,Math 99.0) Flash(97.0)、Opus
3. 编码任务 write code、implement、function、class、refactor、script、migration、test、PR、diff CODE(Codex,Coding 49.3) Opus
4. 代码审查 / 架构设计 review、audit、architecture、design、trade-off、security review、best practice DEEP(Opus,Intel 53.0) 保留在主代理
5. 对速度敏感 / 简单任务 quick、fast、simple、format、convert、summarize、list、extract、translate、one-liner FAST(Flash,206 tok/s) Flash-Lite、Opus
6. 研究 / 科学类任务 research、find out、explain、compare、analyze、paper、evidence、fact-check、deep dive RESEARCH(Pro,GPQA 0.908) Opus
7. 多步骤工具流水线 orchestrate、coordinate、pipeline、workflow、chain、parallel、fan-out ORCHESTRATE(Kimi,TAU-2 0.959) Codex、Opus
8. 结构化输出需求 follow rules exactly、JSON schema、strict template、structured、checklist、table FAST(Flash,IFBench 0.780) Opus
9. 默认路由 无明确匹配项 DEEP(Opus,Intel 53.0) 最稳妥的通用选择

Step 5 补充说明:对于亚秒级 TTFT 需求(如 ping、健康检查),使用 SIMPLE(Flash-Lite,TTFT 0.23s);对于心跳响应和定时任务(cron jobs),使用 FAST(Flash)——其指令遵循能力更强(IFBench 0.780)。

歧义消解示例

当任务同时匹配多个步骤时,按如下规则判定:

  • “分析这份 200 页 PDF 并为其编写 Python 解析器” → Step 1 优先生效(上下文尺寸),先路由至 RESEARCH;随后将编码子任务委派给 CODE。
  • “快速解这个积分” → Step 2 优先于 Step 5(数学任务优先级高于速度)。
  • “为该 API 生成 JSON Schema” → Step 8 优先生效(结构化输出,非编码任务)。
  • “审查这段代码并重构认证模块” → Step 4 先处理审查,再通过委派交由 CODE 执行重构(Step 3)。

不应路由的情形

禁止在以下情形中将任务路由离开当前模型:

  1. 用户明确指定模型。“对此使用 Opus” 或 “不要委派此任务” —— 必须始终尊重直接指令。
  2. 安全敏感型任务。若任务涉及凭据、私钥、密钥或个人身份信息(PII),必须保留在主代理上处理,不得将敏感内容发送至子代理。
  3. 特定模型调试任务。若用户正在测试或对比不同模型行为,应路由至其指定的模型。
  4. 多轮对话中的上下文连续性。在多轮对话中,若用户提出快速后续问题,不应仅因该问题“简单”而切换模型。为保障上下文连贯性,应继续使用当前模型,除非用户显式要求委派。

冲突解决策略

当多个步骤看似同时匹配时,按以下优先级规则裁决:

  1. 判断力优于速度。若任务存在模糊性、细微差别或潜在风险,应保留在 Opus。
  2. 专家模型优于通用模型。若某模型在该任务类型上有突出的基准分,应优先选用。
  3. 编码写作用 Codex,代码审查用 Opus。写与判应由不同模型承担。
  4. 上下文溢出仅由 Gemini 处理。仅 Gemini 系列模型支持 1M 上下文长度。
  5. 交互式任务重视 TTFT。Flash-Lite(0.23s)、Kimi(1.65s)和 Opus(1.76s)响应迅速;Codex(20s)与 Pro(29.59s)启动缓慢,不适用于快速问答场景。
  6. 完全平局时选用 Opus。因其具备最高通用智能度,且发生隐性错误的风险最低。

子代理委派机制

使用 OpenClaw 的代理系统进行委派:

/agent
  1. 发送 /agent codex 后,OpenClaw 将基于该指令启动子代理;
  2. 子代理在独立 workspace 中运行,并返回纯文本响应;
  3. 子代理无法访问您的对话上下文或 workspace 文件 —— 所有必需上下文必须显式包含在指令中。

应传递的内容:具体任务描述、相关代码片段、期望输出格式及约束条件。

示例

/agent codex Write a Python function that parses RFC 3339 timestamps with timezone support. Return only the code.

/agent gemini-researcher Analyze the differences between SQLite WAL mode and journal mode. Include benchmarks and a recommendation.

/agent gemini-fast Convert the following list into a markdown table with columns: Name, Role, Status.

/agent kimi-orchestrator Coordinate: (1) gemini-researcher gathers data on X, (2) codex writes a parser, (3) report results.

错误处理与重试机制

  1. 超时(60 秒内无响应):在同一模型上重试一次;若再次失败,则降级至下一回退模型。
  2. 鉴权错误(401/403):禁止重试 —— 立即降级至下一回退模型,并提示用户重新完成鉴权。参见 references/oauth-setup.md
  3. 速率限制(429):等待 30 秒后重试一次;若仍受限,则降级至下一回退模型。
  4. 部分响应 / 垃圾响应:重试一次;若仍异常,则降级至下一回退模型。
  5. 模型不可用:完全跳过该层级,继续后续步骤。

最大重试次数:同一模型最多重试 1 次,之后立即切换至下一回退模型。所有回退路径全部失败后,最终回落至 Opus。全链路总重试次数不得超过 3 次

触发回退时,应向用户简要说明:

“Codex 当前不可用,已改由 Opus 处理。”

多轮对话中的路由策略

  • 同一主题下的后续消息应保持在同一模型上。上下文连续性的重要性高于模型选型的绝对最优性。
  • 仅当任务类型发生明显变化时才重新路由。例如:用户讨论架构设计(Opus)→ 随后说“现在编写实现” → 将编码任务委派至 Codex。

在对话中途切换模型时:

  1. 对当前对话中相关上下文进行摘要;
  2. 将该摘要作为委派指令的一部分一并传递;
  3. 主代理(Opus)继续运行,并同步知晓子代理已产出的结果。

Workspace 隔离机制

  • 子代理无法读取您的文件 —— 请将内容粘贴进指令中;
  • 子代理无法写入您的 workspace —— 输出仅以纯文本形式返回;
  • 子代理彼此之间完全隔离 —— 设计上即保证零共享。

协作模式

模式 流程 适用场景
Pipeline(流水线) Research Agent → Main Agent → Code Agent 任务需先收集事实,再实施编码
Parallel + Merge(并行+合并) 主代理同时启动 Code Agent(方案 A)与 Research Agent(方案 B),再合并结果 需探索多种解法,或处于时间压力下
Adversarial Review(对抗式审查) Code Agent 编写 → Main Agent 批判 → Code Agent 修订 安全敏感或生产关键型代码
Orchestrated(Kimi 编排) /agent kimi-orchestrator Plan and execute: 涉及 3+ 个代理、依赖关系复杂的任务(Kimi:最慢 39 tok/s,但 TAU-2 最高 0.959)

请选择适用于需协调 3 个以上代理、且依赖图复杂的任务。注意:Kimi 吞吐最慢(39 tok/s),但在工具编排方面最强(TAU-2: 0.959)。

回退链(Fallback Chains)

当某模型不可用或遭遇限流时,按可靠性顺序依次降级。

全栈配置(4 家服务商)

任务类型 主用模型 回退 1 回退 2 回退 3
推理类 Opus Gemini Pro Codex Kimi K2.5
编码类 Codex Opus Gemini Pro Kimi K2.5
研究类 Gemini Pro Opus Codex Kimi K2.5
快速响应类 Flash-Lite Flash Opus Codex
智能体协同类 Kimi K2.5 Codex Gemini Pro Opus

重要提示:务必采用跨服务商回退策略。同服务商内回退(如 Gemini Pro → Flash)可缓解模型特有问题,但无法应对服务商整体宕机。每条回退链至少应覆盖 2 家不同服务商

Claude + Gemini(2 家服务商)

任务类型 主用模型 回退 1 回退 2
推理类 Opus Gemini Pro
编码类 Opus Gemini Pro
研究类 Gemini Pro Opus
快速响应类 Flash-Lite Flash Opus

Claude + Codex(2 家服务商)

任务类型 主用模型 回退 1
推理类 Opus Codex
编码类 Codex Opus
其他所有任务 Opus Codex

仅 Claude(1 家服务商)

所有任务均路由至 Opus,无需回退。

服务商配置

有关鉴权设置、OAuth 流程(含无头 VPS 支持)、多设备安全性等细节,请查阅 references/oauth-setup.md(与本 SKILL.md 文件位于同一目录)。

有关服务商配置(openclaw.json、各代理专属 models.json、Google Gemini 兼容性补丁),请查阅 references/provider-config.md

快速参考:

服务商 鉴权方式 维护需求
Anthropic Setup-token(OAuth) 低 —— 自动刷新
Google Gemini OAuth(CLI 插件) 极低 —— Token 生命周期极长
OpenAI Codex OAuth(ChatGPT PKCE) 低 —— 自动刷新
Kimi 静态 API Key 无 —— 永不过期

故障排查

详细故障排查指南请参阅 references/troubleshooting.md(与本 SKILL.md 文件位于同一目录)。常见问题包括:

  • “No API provider registered for api: undefined” —— 服务商配置中缺少 api 字段
  • Gemini 订阅出现 “API key not valid” —— API 类型错误;请使用 google-gemini-cli,而非 google-generative-ai
  • 模型状态显示 missing —— 模型 ID 不匹配;正确 ID 应为 gemini-2.5-flash-lite(不含 -preview 后缀)
  • Codex 返回 401 Unauthorized —— Token 已过期;请按 references/oauth-setup.md 重新执行 OAuth 流程
  • 子代理报错 “Unknown model” —— 该子代理的鉴权配置中缺失对应服务商

成本概览

配置方案 月费 说明
仅 Claude(Max 5x) $100 无路由,全部由 Opus 处理
仅 Claude(Max 20x) $200 无路由,享有 20x 速率限制
均衡配置(Max 20x + Gemini) $220 新增 Flash 速度优势 + Pro 研究能力
专注编码(+ ChatGPT Plus) $240 新增 Codex 用于编码与数学计算
全栈配置(全部 4 家,含 ChatGPT Plus) $250 全面专业化能力覆盖
全栈 Pro 配置(全部 4 家,含 ChatGPT Pro) $430 速率限制达上限

数据来源:Artificial Analysis API v4(2026 年 2 月)。Codex 分数(标 *)根据 OpenAI 官方博客数据估算。结构化基准数据详见 references/benchmarks.json

参考资料

文件 内容
[references/oauth-setup.md](references/oauth-setup.md) 鉴权配置、OAuth 流程、多设备安全性说明
[references/provider-config.md](references/provider-config.md) openclaw.json、各代理 models.json、Gemini 兼容性补丁
[references/troubleshooting.md](references/troubleshooting.md) 常见错误与解决方案
[references/benchmarks.json](references/benchmarks.json) 所有模型原始基准测试数据