Ollama 常见问题

macOS: ~/.ollama/models
Linux: /usr/share/ollama/.ollama/models
Windows: C:\Users\{username}\.ollama\models
可通过 OLLAMA_MODELS 环境变量更改。

设置环境变量：OLLAMA_HOST=0.0.0.0:8080 ollama serve

1. NVIDIA：确保 nvidia-smi 正常工作
2. Linux：检查 CUDA 驱动
3. macOS：Apple Silicon 自动 Metal 加速，无需配置

1. 使用更小参数的模型（如 7B 而非 70B）
2. 使用更激进的量化（如 Q3_K_M）
3. 启用 KV Cache 量化：OLLAMA_KV_CACHE_TYPE=q4_0

设置 HTTP 代理：
export HTTP_PROXY=http://proxy:port
export HTTPS_PROXY=http://proxy:port

官方模型库：https://ollama.com/library
支持 Llama、Qwen、Mistral、Gemma、Phi、DeepSeek 等 100+ 模型。
也可导入 HuggingFace 上的任意 GGUF 模型。

使用 OpenAI SDK：
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

1. 确保 GPU 被正确使用
2. 使用更小的模型或量化
3. 启用 Flash Attention：OLLAMA_FLASH_ATTENTION=1
4. 减少上下文长度：num_ctx 参数