Ollama GPU 加速 - NVIDIA/AMD/Apple Silicon

NVIDIA GPU

Ollama 自动检测 NVIDIA GPU，需要安装 CUDA 驱动。

# 检查 GPU
nvidia-smi

# Ollama 自动使用 GPU
ollama run llama3.1

# 指定 GPU
CUDA_VISIBLE_DEVICES=0,1 ollama run llama3.1

# 环境变量
export CUDA_VISIBLE_DEVICES=0

macOS 自动使用 Metal GPU，无需配置。

# 自动 Metal 加速
ollama run llama3.1

# 查看日志确认
ollama run llama3.1 --verbose

# 安装 ROCm
# 参考: https://rocm.docs.amd.com

# 设置环境变量
export HSA_OVERRIDE_GFX_VERSION=10.3.0
ollama run llama3.1

# KV Cache 量化（节省显存）
export OLLAMA_KV_CACHE_TYPE=q4_0

# Flash Attention（加速）
export OLLAMA_FLASH_ATTENTION=1

# 并发数限制
export OLLAMA_NUM_PARALLEL=1