NVIDIA GPU

Ollama 自动检测 NVIDIA GPU,需要安装 CUDA 驱动。

# 检查 GPU
nvidia-smi

# Ollama 自动使用 GPU
ollama run llama3.1

多 GPU 配置

# 指定 GPU
CUDA_VISIBLE_DEVICES=0,1 ollama run llama3.1

# 环境变量
export CUDA_VISIBLE_DEVICES=0

Apple Silicon (M1/M2/M3/M4)

macOS 自动使用 Metal GPU,无需配置。

# 自动 Metal 加速
ollama run llama3.1

# 查看日志确认
ollama run llama3.1 --verbose

AMD GPU (Linux)

# 安装 ROCm
# 参考: https://rocm.docs.amd.com

# 设置环境变量
export HSA_OVERRIDE_GFX_VERSION=10.3.0
ollama run llama3.1

GPU 内存优化

# KV Cache 量化(节省显存)
export OLLAMA_KV_CACHE_TYPE=q4_0

# Flash Attention(加速)
export OLLAMA_FLASH_ATTENTION=1

# 并发数限制
export OLLAMA_NUM_PARALLEL=1

性能参考

硬件模型速度
RTX 4090llama3.1:8b80-120 tok/s
RTX 3080llama3.1:8b50-80 tok/s
M4 Maxllama3.1:8b60-90 tok/s
M2 Prollama3.1:8b30-50 tok/s
上一页:模型量化下一页:常见问题