本地部署 ollma+ qwen 7B大模型

vim docker-compose.yml

version: '3.8'

services:
  ollama:
    container_name: ollama
    image: ollama/ollama:latest
    restart: always
    ports:
      - "11434:11434"
    volumes:
      - ./ollama_data:/root/.ollama
    environment:
      - OLLAMA_KEEP_ALIVE=24h        # 让模型常驻内存，不要卸载，你内存够
      - OLLAMA_NUM_PARALLEL=4        # 🚀 关键：允许同时处理 4 个请求
      - OLLAMA_MAX_LOADED_MODELS=2   # 允许同时加载 2 个不同的模型
      - OLLAMA_ORIGINS="*"
    deploy:
      resources:
        limits:
          memory: 18G                # 限制最大使用 18G，留点给系统

text

version: '3.8'

services:
  ollama:
    container_name: ollama
    image: ollama/ollama:latest
    restart: always
    ports:
      - "11434:11434"
    volumes:
      - ./ollama_data:/root/.ollama
    environment:
      - OLLAMA_KEEP_ALIVE=24h        # 让模型常驻内存，不要卸载，你内存够
      - OLLAMA_NUM_PARALLEL=4        # 🚀 关键：允许同时处理 4 个请求
      - OLLAMA_MAX_LOADED_MODELS=2   # 允许同时加载 2 个不同的模型
      - OLLAMA_ORIGINS="*"
    deploy:
      resources:
        limits:
          memory: 18G                # 限制最大使用 18G，留点给系统

下载并运行 Qwen2.5-7B

# 拉取千问 7B (目前中文表现最好的 7B 模型)
docker exec -it ollama ollama run qwen2.5:7b

# (可选) 如果想试试更强的，内存甚至跑得起 14B (4bit量化约需 9GB 内存)
docker exec -it ollama ollama run qwen2.5:14b



硬盘层面： 你下载了 7B 和 14B，它们都在硬盘里躺着。

内存层面：

如果你请求里的参数写 "model": "qwen2.5:7b"，Ollama 就把 7B 加载进内存。

如果你请求里的参数写 "model": "qwen2.5:14b"，Ollama 就会自动把 7B 踢出内存（Unload），然后把 14B 加载进去。

text

# 拉取千问 7B (目前中文表现最好的 7B 模型)
docker exec -it ollama ollama run qwen2.5:7b

# (可选) 如果想试试更强的，内存甚至跑得起 14B (4bit量化约需 9GB 内存)
docker exec -it ollama ollama run qwen2.5:14b



硬盘层面： 你下载了 7B 和 14B，它们都在硬盘里躺着。

内存层面：

如果你请求里的参数写 "model": "qwen2.5:7b"，Ollama 就把 7B 加载进内存。

如果你请求里的参数写 "model": "qwen2.5:14b"，Ollama 就会自动把 7B 踢出内存（Unload），然后把 14B 加载进去。

测试代码对吗：

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "请用三句话解释一下为什么量子力学很难懂？",
  "stream": true
}'

text

curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "请用三句话解释一下为什么量子力学很难懂？",
  "stream": true
}'

评论