MMLU 评测基准 MMLU
一个覆盖多学科、多难度层级的多项选择题评测集,用于衡量大模型的通识与专业知识掌握程度。
MMLU(Massive Multitask Language Understanding)包含数十个学科和不同难度等级的问题,评测模型在历史、法律、医学、STEM 等领域的表现。由于其覆盖面广、问题质量较高,已成为衡量大模型通用知识与推理能力的标准基准之一。
在实践中,MMLU 常与 GSM8K、BIG-Bench、HumanEval 等基准一起使用,用于对比不同模型和训练配方的效果。
打开 GitHub 界面,修改后直接生成 PR