AI 专业名词百科

可搜索 · 分类 · 创建 · 编辑 · 评论

BM25 BM25

经典的稀疏检索排序函数,基于词项匹配与词频/逆文档频率,在很多 RAG 系统中作为“强基线”或混合检索组件。

分类:rag 类型:method 别名:BM25, Okapi BM25, 稀疏检索

BM25 是传统信息检索(IR)里非常经典、且至今仍很实用的稀疏检索(sparse retrieval)方法。它主要依赖关键词/词项匹配,对“专有名词、编号、产品名、错误码、精确短语”这类查询往往非常强。

在 RAG 里,BM25 常见用法是:

  • 作为 强基线(先跑 BM25 看上限在哪里)
  • 与向量检索做 混合检索(hybrid search),提高召回覆盖率

什么时候 BM25 特别有用

  • 查询包含明确关键词(例如接口名、参数名、错误码、型号)
  • 文档里存在“关键短语”且希望精确匹配

局限

  • 对同义改写/语义相近但不含关键词的查询不友好
  • 需要较好的分词与文本规范化(尤其中文)

相关词条

打开 GitHub 界面,修改后直接生成 PR

💬 用户评论与个人笔记