AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

模型路由 Model Routing

在推理阶段根据任务类型/难度/成本等信号,将请求分配给不同模型或不同配置(上下文、工具、温度等)的工程策略。

分类:inference 类型:practice 别名:Model Router, 路由, 多模型编排

模型路由(Model Routing)指在同一产品中同时使用多个模型(或同一模型的不同规格/参数),并根据请求特征把流量路由到“最合适的一条路径”,以平衡质量、成本、延迟与安全风险。

常见路由信号

  • 任务类型:问答/代码/写作/抽取/工具调用等。
  • 复杂度/不确定性:例如长度、置信度、是否需要多步推理。
  • 风险等级:涉及隐私、合规、高危内容时走更严格的策略与更强的模型。
  • 系统约束:峰值流量、预算上限、延迟 SLA。

常见形态

  • 强弱模型分层:简单请求走小模型,复杂请求升级到大模型。
  • 先判别再生成:先用轻量分类器/小模型判断意图与风险,再选择生成策略。
  • 混合专家(MoE)类思想的系统层实现:把“选择专家”的逻辑放在服务编排层。

风险与建议

  • 路由错误会放大体验差异:需要回归集与在线监控,避免“该升级没升级/不该升级乱升级”。
  • 一致性问题:不同模型输出风格不同,需用提示模板与结构化输出做收敛。

相关词条

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记