标签

#向量

2 篇文章

api-开发fastapigcpgithubk8smcpnginxopenairagyixue上下文向量对话代码流式爬虫环境配置
AI 大模型开发

稀疏向量检索流程

完整的中文 RAG 稀疏检索原型:**先切块 → 分词 → 建 BM25 索引 → 查询匹配**。本文通过一个可运行的 Python 示例,逐步拆解每个环节的原理与实现细节。 --- 整体流程概览 🔍 稀疏检索(Sparse Retrieval)的核心思路是:将文档和查询都表示为**高维稀疏向量**(大部分维度为 0,只有出现的词对应维度非零),然后通过向量相似度(本质是加权关键词匹配)完成检索。BM25 是最经典的稀疏检索算法。 整…

·35 min read
稀疏向量检索流程
AI 大模型开发

稠密向量 与 稀疏向量

💡 **为什么要了解稀疏向量和稠密向量?** 在构建 RAG(Retrieval-Augmented Generation,检索增强生成)系统时,检索质量直接决定了最终生成答案的好坏。而检索的核心就在于如何把文本变成向量、用什么样的向量去匹配。理解稀疏向量和稠密向量的区别,能帮助你选择合适的检索策略,甚至将两者结合以获得最佳效果。 在信息检索和 RAG 里,我们把一段文本(句子、段落、文档)转换成一个**数字列表**,这个列表就叫**…

·12 min read