AI 大模型开发
稀疏向量检索流程
完整的中文 RAG 稀疏检索原型:**先切块 → 分词 → 建 BM25 索引 → 查询匹配**。本文通过一个可运行的 Python 示例,逐步拆解每个环节的原理与实现细节。 --- 整体流程概览 🔍 稀疏检索(Sparse Retrieval)的核心思路是:将文档和查询都表示为**高维稀疏向量**(大部分维度为 0,只有出现的词对应维度非零),然后通过向量相似度(本质是加权关键词匹配)完成检索。BM25 是最经典的稀疏检索算法。 整…
·35 min read
