AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

MMLU 评测基准 MMLU

一个覆盖多学科、多难度层级的多项选择题评测集,用于衡量大模型的通识与专业知识掌握程度。

分类:safety 类型:concept 别名:MMLU

MMLU(Massive Multitask Language Understanding)包含数十个学科和不同难度等级的问题,评测模型在历史、法律、医学、STEM 等领域的表现。由于其覆盖面广、问题质量较高,已成为衡量大模型通用知识与推理能力的标准基准之一。

在实践中,MMLU 常与 GSM8K、BIG-Bench、HumanEval 等基准一起使用,用于对比不同模型和训练配方的效果。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记