专家混合模型（MoE）

专家混合模型（MoE） Mixture of Experts · MoE

通过将参数拆分为多个“专家”，并在每个样本上只激活其中一小部分，实现参数规模巨大但计算量相对可控的模型结构。

分类：model 类型：model 别名：MoE, 专家混合, 稀疏专家

MoE（Mixture of Experts）将模型划分为多个并行的「专家」子网络，并使用门控网络（Gating Network）决定每个输入应路由到哪些专家。这样可以在总体参数非常庞大的前提下，每个样本只激活少数专家，从而在计算预算基本不变的情况下提升模型容量。

在大语言模型领域，Mixtral、DeepSeek-MoE 等都是 MoE 思想的代表实践。工程上需要处理专家负载不均衡、通信开销与路由稳定性等问题，常用技术包括 Top-k 路由、负载均衡损失以及专家并行。