AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

MT-Bench 对话评测 MT-Bench

由 LMSYS 提出的多轮对话评测基准,关注模型在开放式问答和对话任务中的综合表现。

分类:safety 类型:concept 别名:MT-Bench

MT-Bench 通过一组多轮对话问题,覆盖编码、数学、推理、知识问答等多个维度,并通常使用更强的模型(如 GPT-4)作为「评审」对候选回答进行打分。它与 LMSYS Arena 等人类偏好评测一起,构成了当前对话型大模型评估的重要参考。

与传统单轮问答基准相比,MT-Bench 更接近真实使用场景,有助于发现模型在对话连贯性、指令遵循与安全性方面的问题。

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记