BM25 BM25
经典的稀疏检索排序函数,基于词项匹配与词频/逆文档频率,在很多 RAG 系统中作为“强基线”或混合检索组件。
BM25 是传统信息检索(IR)里非常经典、且至今仍很实用的稀疏检索(sparse retrieval)方法。它主要依赖关键词/词项匹配,对“专有名词、编号、产品名、错误码、精确短语”这类查询往往非常强。
在 RAG 里,BM25 常见用法是:
- 作为 强基线(先跑 BM25 看上限在哪里)
- 与向量检索做 混合检索(hybrid search),提高召回覆盖率
什么时候 BM25 特别有用
- 查询包含明确关键词(例如接口名、参数名、错误码、型号)
- 文档里存在“关键短语”且希望精确匹配
局限
- 对同义改写/语义相近但不含关键词的查询不友好
- 需要较好的分词与文本规范化(尤其中文)
相关词条
打开 GitHub 界面,修改后直接生成 PR