Q: 模型存储在哪里?

macOS: ~/.ollama/models
Linux: /usr/share/ollama/.ollama/models
Windows: C:\Users\{username}\.ollama\models
可通过 OLLAMA_MODELS 环境变量更改。

Q: 如何更改 API 端口?

设置环境变量:OLLAMA_HOST=0.0.0.0:8080 ollama serve

Q: GPU 没有被识别怎么办?

1. NVIDIA:确保 nvidia-smi 正常工作
2. Linux:检查 CUDA 驱动
3. macOS:Apple Silicon 自动 Metal 加速,无需配置

Q: 内存不足怎么办?

1. 使用更小参数的模型(如 7B 而非 70B)
2. 使用更激进的量化(如 Q3_K_M)
3. 启用 KV Cache 量化:OLLAMA_KV_CACHE_TYPE=q4_0

Q: 如何使用代理下载模型?

设置 HTTP 代理:
export HTTP_PROXY=http://proxy:port
export HTTPS_PROXY=http://proxy:port

Q: 支持哪些模型?

官方模型库:https://ollama.com/library
支持 Llama、Qwen、Mistral、Gemma、Phi、DeepSeek 等 100+ 模型。
也可导入 HuggingFace 上的任意 GGUF 模型。

Q: 如何在 Python 中使用?

使用 OpenAI SDK:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")

Q: 生成速度慢怎么办?

1. 确保 GPU 被正确使用
2. 使用更小的模型或量化
3. 启用 Flash Attention:OLLAMA_FLASH_ATTENTION=1
4. 减少上下文长度:num_ctx 参数

上一页:GPU 加速