MMLU 评测基准

MMLU 评测基准 MMLU

一个覆盖多学科、多难度层级的多项选择题评测集，用于衡量大模型的通识与专业知识掌握程度。

分类：safety 类型：concept 别名：MMLU

MMLU（Massive Multitask Language Understanding）包含数十个学科和不同难度等级的问题，评测模型在历史、法律、医学、STEM 等领域的表现。由于其覆盖面广、问题质量较高，已成为衡量大模型通用知识与推理能力的标准基准之一。

在实践中，MMLU 常与 GSM8K、BIG-Bench、HumanEval 等基准一起使用，用于对比不同模型和训练配方的效果。

打开 GitHub 界面，修改后直接生成 PR