AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

这篇不是给你“搭评测平台”的工程文档,而是帮助读者理解:为什么 RAG/AI 搜索需要评测、评测到底在评什么,以及你在使用/选型时怎么快速判断一个系统是否靠谱。

相关词条(想深入再点):

评测的目标:让“可用”变成“可持续信任”

如果一个系统今天回答得不错,但明天换了索引/模型/提示词就开始胡说,你就很难把它当作可靠工具。评测的意义是:

  • 把“看起来不错”变成“可重复验证”
  • 把“偶尔翻车”变成“有机制发现并修复”

最重要的三层评测(读者版)

你可以把 RAG 评测理解成三层:

  1. 证据层(检索):找没找到“该用的那几段材料”?
  2. 回答层(生成):回答有没有忠于证据、有没有添油加醋?
  3. 使用层(端到端):在真实问题里,你是不是更省时间、更少踩坑?

你可以怎么“快速验收”一个 RAG/AI 搜索产品?

不用懂指标,问它(或问自己)这几个问题就够用了:

  • 引用能不能点开?点开后是否能定位到支持结论的段落?
  • 遇到证据不足时会怎么做?会承认不确定、还是继续编完整答案?
  • 不同来源冲突时会怎么做?会呈现分歧并标注来源、还是只选一个讲?
  • 同一问题重复问,答案稳定吗?是否经常换说法或“漂移”?

常见翻车模式(看懂就能避坑)

  • 装饰性引用:答案旁边有链接,但链接内容不支持结论。
  • 片段不自洽:召回的证据缺关键前提/限制条件,导致答案“半对半错”。
  • 过期信息:引用来自旧版本文档,但系统没有提醒版本差异。
  • 权限/可见性问题:系统把不该给你的内容当证据引用出来(企业场景尤其危险)。

如果你是团队:最小“回归集”怎么理解?

把它当成“常用问题清单”,不需要很大,但要覆盖:

  • 你们最常问的 30–100 个问题
  • 历史上翻过车的样例(事故复盘后加入)
  • 高风险问题(合规/隐私/关键决策)

继续阅读

一句话总结

  • RAG 评测不是“追求一个高分”,而是保证它在你的真实问题上长期可靠。