技术笔记整理

前言在构建企业级 RAG（检索增强生成）系统时，**Rerank（重排序）** 是提升准确率的关键一环。我们通常会选择强大的 CPU 服务器来部署这一服务，比如拥有恐怖核心数的 AMD EPYC 系列。然而，许多人在部署 HuggingFace 的 text-embeddings-inference (TEI) CPU 版后会发现：**为什么我的 CPU 利用率不高，推理速度也不尽如人意？** 感觉就像开着法拉利在送外卖。根本原…

AI 大模型开发

2025年12月22日7 分钟

tei-rerank 部署重排模型bge-reranker-v2-m3

下载模型配置 onnx 转换 vim convert_to_onnx.py 下载模型，因为需要 onnx 转换，所以使用 python 进行转换配置 docker-compose **Docker 的坑：** 默认情况下，Docker 只给容器分配 **64MB** 的共享内存。 **AI 的需求：** TEI、PyTorch、Ollama 这些 AI 程序，在处理大量并发或大模型时，需要在进程间传输巨大的矩阵数据。 **后果：*…

AI 大模型开发

2025年12月21日2 分钟

本地部署 ollma+ qwen 7B大模型

vim docker-compose.yml 下载并运行 Qwen2.5-7B 测试代码对吗：

AI 大模型开发

2025年12月21日7 分钟

搭建tei-embedding 与配置bge-m3 文本模型

下载模型以这个 bge-m3 为例： save_dir 就是保存的绝对路径，根据需要修改 tei 部署测试部署测试你会看到屏幕上瞬间刷出一屏密密麻麻的浮点数：[[0.0123, -0.0456, ...]]。只要看到这一屏数字，说明 **TEI 活了**，模型加载成功，推理功能正常。如果报错 Connection refused，说明容器没起来或者端口没对上。相似度测试运行结果：

Python 开发

2025年12月21日1 分钟

ubuntu 使用 Miniconda

默认进入 base 环境不好，建议设置成“默认不激活 base”：这是 Anaconda 最近更新了服务条款（Terms of Service）导致的。现在即使是免费用户，也需要显式同意他们的条款才能下载包。创建一个新环境比如我们要跑 **Ollama** 的脚本或者 **Milvus** 的 Python 代码，建议建一个 Python 3.10 或 3.11 的环境。

AI 大模型开发

2025年12月21日11 分钟

部署milvus 向量数据库与可视化attu

docker-compose 部署部署minio 首选会使用到 Minio 因为我之前配过，所以这里直接使用了即可。注意需要自己的 MINIO_ROOT_USER 和 MINIO_ROOT_PASSWORD milvus 其他的服务注意修改MINIO_ACCESS_KEY_ID 和MINIO_SECRET_ACCESS_KEY 的值。先启动 Minio 然后启动这个 docker-compose 的文件。一开始启动会报错，不…

计算机知识

2025年12月19日3 分钟

Github Action 官方托管与自托管区别

官方 Runner 的配置是默认 2C7G 吗？会动态调整吗？ **默认配置：** 是的，对于最常用的 **Linux** 标准 Runner，官方默认配置确实接近你说的参数。 **Linux (Standard):** 2 vCPU, 7 GB RAM, 14 GB SSD 存储空间。 **Windows (Standard):** 2 vCPU, 7 GB RAM。 **macOS (Standard):** 3 vCPU, 14…

服务器与部署

2025年12月19日1 分钟