vim docker-compose.yml
text
version: '3.8'
services:
ollama:
container_name: ollama
image: ollama/ollama:latest
restart: always
ports:
- "11434:11434"
volumes:
- ./ollama_data:/root/.ollama
environment:
- OLLAMA_KEEP_ALIVE=24h # 让模型常驻内存,不要卸载,你内存够
- OLLAMA_NUM_PARALLEL=4 # 🚀 关键:允许同时处理 4 个请求
- OLLAMA_MAX_LOADED_MODELS=2 # 允许同时加载 2 个不同的模型
- OLLAMA_ORIGINS="*"
deploy:
resources:
limits:
memory: 18G # 限制最大使用 18G,留点给系统
下载并运行 Qwen2.5-7B
text
# 拉取千问 7B (目前中文表现最好的 7B 模型)
docker exec -it ollama ollama run qwen2.5:7b
# (可选) 如果想试试更强的,内存甚至跑得起 14B (4bit量化约需 9GB 内存)
docker exec -it ollama ollama run qwen2.5:14b
硬盘层面: 你下载了 7B 和 14B,它们都在硬盘里躺着。
内存层面:
如果你请求里的参数写 "model": "qwen2.5:7b",Ollama 就把 7B 加载进内存。
如果你请求里的参数写 "model": "qwen2.5:14b",Ollama 就会自动把 7B 踢出内存(Unload),然后把 14B 加载进去。
测试代码对吗:
text
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:7b",
"prompt": "请用三句话解释一下为什么量子力学很难懂?",
"stream": true
}'
评论
还没有评论,来发第一个吧