AI 大模型开发

分类下的全部文章

[转]LangGraph完整指南
AI 大模型开发
11 min

[转]LangGraph完整指南

embedd
AI 大模型开发
3 min

embeddings 缓存处理

Vibe C
AI 大模型开发
1 min

Vibe Coding Skills

https://github.com/sickn33/antigravity-awesome-skills |工具|Skills 文件夹正确名称|说明| | --- | --- | --- | |**Codex App / Codex CLI**(OpenAI)|**.agents/skills**(**复数** agents)|官方标准| |**Antigravity**(Google)|**.agent/skills**(**单数…

稀疏向量检索流程
AI 大模型开发
26 min

稀疏向量检索流程

完整的中文 RAG 稀疏检索原型:**先切块 → 分词 → 建 BM25 索引 → 查询匹配**。本文通过一个可运行的 Python 示例,逐步拆解每个环节的原理与实现细节。 --- 整体流程概览 🔍 稀疏检索(Sparse Retrieval)的核心思路是:将文档和查询都表示为**高维稀疏向量**(大部分维度为 0,只有出现的词对应维度非零),然后通过向量相似度(本质是加权关键词匹配)完成检索。BM25 是最经典的稀疏检索算法。 整…

向量
稠密向量 与
AI 大模型开发
8 min

稠密向量 与 稀疏向量

💡 **为什么要了解稀疏向量和稠密向量?** 在构建 RAG(Retrieval-Augmented Generation,检索增强生成)系统时,检索质量直接决定了最终生成答案的好坏。而检索的核心就在于如何把文本变成向量、用什么样的向量去匹配。理解稀疏向量和稠密向量的区别,能帮助你选择合适的检索策略,甚至将两者结合以获得最佳效果。 在信息检索和 RAG 里,我们把一段文本(句子、段落、文档)转换成一个**数字列表**,这个列表就叫**…

向量
使用 attu 创建向量数据库
AI 大模型开发
8 min

使用 attu 创建向量数据库

创建 collection 建立索引: 使用稀疏向量 **表结构**、**度量标准**和**算法参数**三个维度。 字段属性 (Schema Fields) 在向量数据库中,每一行数据不再只是简单的文本,而是由以下核心字段组成: **FloatVector(1024)**: **概念**: 这是一个高维向量字段。 **1024 (维度)**: 这必须与你的 Embedding 模型(如 BGE-M3)输出的维度完全一致。它代表了将一段…

RAG 架构
AI 大模型开发
11 min

RAG 架构的认识

主要步骤 对于 rag 体系,主要分为以下的步骤: | **阶段** | **核心动作** | **进阶动作** | | --- | --- | --- | | **数据准备** | 数据etl、分块、元数据提取、Embedding、索引建立 | 语义切分、元数据提取 | | **用户输入** | 接收 Query | **查询改写、子问题拆解** | | **召回** | 向量数据库检索 | **混合检索 (Hybrid Searc…

rag
CPU 跑
AI 大模型开发
7 min

CPU 跑 Rerank 太慢?一个脚本开启 INT8 量化,性能大幅度提升!

前言 在构建企业级 RAG(检索增强生成)系统时,**Rerank(重排序)** 是提升准确率的关键一环。我们通常会选择强大的 CPU 服务器来部署这一服务,比如拥有恐怖核心数的 AMD EPYC 系列。 然而,许多人在部署 HuggingFace 的 text-embeddings-inference (TEI) CPU 版后会发现:**为什么我的 CPU 利用率不高,推理速度也不尽如人意?** 感觉就像开着法拉利在送外卖。 根本原…

tei-re
AI 大模型开发
7 min

tei-rerank 部署重排模型bge-reranker-v2-m3

下载模型 配置 onnx 转换 vim convert_to_onnx.py 下载模型,因为需要 onnx 转换,所以使用 python 进行转换 配置 docker-compose **Docker 的坑:** 默认情况下,Docker 只给容器分配 **64MB** 的共享内存。 **AI 的需求:** TEI、PyTorch、Ollama 这些 AI 程序,在处理大量并发或大模型时,需要在进程间传输巨大的矩阵数据。 **后果:*…

本地部署 o
AI 大模型开发
2 min

本地部署 ollma+ qwen 7B大模型

vim docker-compose.yml 下载并运行 Qwen2.5-7B 测试代码对吗: