CPU 跑 Rerank 太慢?一个脚本开启 INT8 量化,性能大幅度提升!
前言 在构建企业级 RAG(检索增强生成)系统时,**Rerank(重排序)** 是提升准确率的关键一环。我们通常会选择强大的 CPU 服务器来部署这一服务,比如拥有恐怖核心数的 AMD EPYC 系列。 然而,许多人在部署 HuggingFace 的 text-embeddings-inference (TEI) CPU 版后会发现:**为什么我的 CPU 利用率不高,推理速度也不尽如人意?** 感觉就像开着法拉利在送外卖。 根本原…
