AI 大模型开发

本地部署 ollma+ qwen 7B大模型

JACIN··4 分钟阅读

vim docker-compose.yml

text
version: '3.8'

services:
  ollama:
    container_name: ollama
    image: ollama/ollama:latest
    restart: always
    ports:
      - "11434:11434"
    volumes:
      - ./ollama_data:/root/.ollama
    environment:
      - OLLAMA_KEEP_ALIVE=24h        # 让模型常驻内存,不要卸载,你内存够
      - OLLAMA_NUM_PARALLEL=4        # 🚀 关键:允许同时处理 4 个请求
      - OLLAMA_MAX_LOADED_MODELS=2   # 允许同时加载 2 个不同的模型
      - OLLAMA_ORIGINS="*"
    deploy:
      resources:
        limits:
          memory: 18G                # 限制最大使用 18G,留点给系统

下载并运行 Qwen2.5-7B

text
# 拉取千问 7B (目前中文表现最好的 7B 模型)
docker exec -it ollama ollama run qwen2.5:7b

# (可选) 如果想试试更强的,内存甚至跑得起 14B (4bit量化约需 9GB 内存)
docker exec -it ollama ollama run qwen2.5:14b



硬盘层面: 你下载了 7B 和 14B,它们都在硬盘里躺着。

内存层面:

如果你请求里的参数写 "model": "qwen2.5:7b",Ollama 就把 7B 加载进内存。

如果你请求里的参数写 "model": "qwen2.5:14b",Ollama 就会自动把 7B 踢出内存(Unload),然后把 14B 加载进去。

测试代码对吗:

text
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "请用三句话解释一下为什么量子力学很难懂?",
  "stream": true
}'

评论

还没有评论,来发第一个吧