模型路由 Model Routing
在推理阶段根据任务类型/难度/成本等信号,将请求分配给不同模型或不同配置(上下文、工具、温度等)的工程策略。
模型路由(Model Routing)指在同一产品中同时使用多个模型(或同一模型的不同规格/参数),并根据请求特征把流量路由到“最合适的一条路径”,以平衡质量、成本、延迟与安全风险。
常见路由信号
- 任务类型:问答/代码/写作/抽取/工具调用等。
- 复杂度/不确定性:例如长度、置信度、是否需要多步推理。
- 风险等级:涉及隐私、合规、高危内容时走更严格的策略与更强的模型。
- 系统约束:峰值流量、预算上限、延迟 SLA。
常见形态
- 强弱模型分层:简单请求走小模型,复杂请求升级到大模型。
- 先判别再生成:先用轻量分类器/小模型判断意图与风险,再选择生成策略。
- 混合专家(MoE)类思想的系统层实现:把“选择专家”的逻辑放在服务编排层。
风险与建议
- 路由错误会放大体验差异:需要回归集与在线监控,避免“该升级没升级/不该升级乱升级”。
- 一致性问题:不同模型输出风格不同,需用提示模板与结构化输出做收敛。
相关词条
打开 GitHub 界面,修改后直接生成 PR