模型路由 · AI 专业名词百科

模型路由 Model Routing

在推理阶段根据任务类型/难度/成本等信号，将请求分配给不同模型或不同配置（上下文、工具、温度等）的工程策略。

分类：inference 类型：practice 别名：Model Router, 路由, 多模型编排

模型路由（Model Routing）指在同一产品中同时使用多个模型（或同一模型的不同规格/参数），并根据请求特征把流量路由到“最合适的一条路径”，以平衡质量、成本、延迟与安全风险。

常见路由信号

任务类型：问答/代码/写作/抽取/工具调用等。
复杂度/不确定性：例如长度、置信度、是否需要多步推理。
风险等级：涉及隐私、合规、高危内容时走更严格的策略与更强的模型。
系统约束：峰值流量、预算上限、延迟 SLA。

常见形态

强弱模型分层：简单请求走小模型，复杂请求升级到大模型。
先判别再生成：先用轻量分类器/小模型判断意图与风险，再选择生成策略。
混合专家（MoE）类思想的系统层实现：把“选择专家”的逻辑放在服务编排层。

风险与建议

路由错误会放大体验差异：需要回归集与在线监控，避免“该升级没升级/不该升级乱升级”。
一致性问题：不同模型输出风格不同，需用提示模板与结构化输出做收敛。

相关词条

LLM 推理、KV Cache、LLM 评测

打开 GitHub 界面，修改后直接生成 PR