大模型评测 · AI 专业名词百科

大模型评测 LLM Evaluation

评估大语言模型在能力、可靠性与安全性上的表现的方法体系，涵盖基准测试、人工评审、在线指标与红队测试等。

分类：safety 类型：concept 别名：LLM Evaluation, 评测, llm-evaluation-placeholder

大模型评测（LLM Evaluation）指一整套用于衡量模型“能做什么、做得多好、在什么边界会出问题”的方法与流程。它既包括离线基准（benchmark），也包括面向真实产品的在线观测与安全测试。

评测对象通常包含什么

能力：知识、推理、代码、工具使用、多语言、多模态等。
可靠性：一致性、可复现性、遵循格式、对抗性输入下的稳定性。
安全与合规：越狱、隐私泄露、偏见、有害内容、越权工具调用等风险。
体验：可用性、帮助度、语气风格、拒答质量、引用与可追溯性。

常见方法（从离线到在线）

离线基准测试：如通识/学科题库、对话评测、代码题集等，适合做版本对比与回归。
人工评审（Human Eval）：对“有主观性/开放式”的任务更可靠，但成本较高，需设计一致的评审标准。
LLM-as-a-Judge：用模型当裁判做打分/排序，成本低但可能有偏置与“同源偏好”，需要校准与抽检。
红队与安全审计：覆盖越狱、提示注入、数据外泄、越权调用等高风险场景，强调覆盖面与可追责。
在线指标与回放：在真实流量下监控拒答率、用户改写率、人工接管率、延迟与成本，并用日志回放做回归测试。

为什么“只看一个分数”不够

基准通常代表“某类题型”，不等于真实业务；分数提升也可能来自数据泄漏或提示工程差异。
不同维度之间会有权衡：更强的拒答可能牺牲帮助度；更激进的工具调用可能提高效率但增大风险。

实践建议（可落地的最小集合）

为你的业务定义一套“小而精”的回归集：覆盖高频任务、关键边界与已知事故案例。
把评测当成工程管线：每次改 prompt、工具、检索、模型版本，都能自动跑回归并产出差异报告。
分层看指标：能力（离线）+ 可靠性（格式/一致性）+ 安全（红队）+ 体验（在线）。

相关词条

基准：MMLU、MT-Bench
安全：红队测试、AI Safety

打开 GitHub 界面，修改后直接生成 PR