NVIDIA GPU
Ollama 自动检测 NVIDIA GPU,需要安装 CUDA 驱动。
# 检查 GPU
nvidia-smi
# Ollama 自动使用 GPU
ollama run llama3.1多 GPU 配置
# 指定 GPU
CUDA_VISIBLE_DEVICES=0,1 ollama run llama3.1
# 环境变量
export CUDA_VISIBLE_DEVICES=0Apple Silicon (M1/M2/M3/M4)
macOS 自动使用 Metal GPU,无需配置。
# 自动 Metal 加速
ollama run llama3.1
# 查看日志确认
ollama run llama3.1 --verboseAMD GPU (Linux)
# 安装 ROCm
# 参考: https://rocm.docs.amd.com
# 设置环境变量
export HSA_OVERRIDE_GFX_VERSION=10.3.0
ollama run llama3.1GPU 内存优化
# KV Cache 量化(节省显存)
export OLLAMA_KV_CACHE_TYPE=q4_0
# Flash Attention(加速)
export OLLAMA_FLASH_ATTENTION=1
# 并发数限制
export OLLAMA_NUM_PARALLEL=1