修复 Gemma 4 显存溢出 (OOM) 报错：实战排错指南

报错现象

许多使用 24GB 显卡的用户报告了以下崩溃顺序：

模型成功加载到显存中（对于 Q4_K_M 量化，占用约 18-20GB）。
第一次简短的对话请求正常工作。
粘贴了一段长文档，或者对话历史记录不断增长。
推理引擎崩溃，提示 CUDA error: out of memory，或者 Ollama 突然停止响应。

根因分析：KV Cache 的隐性成本

虽然量化后 31B 模型的权重能够塞进约 19GB 显存，但注意力机制需要内存来存储上下文（KV Cache）。在 Gemma 4 中，长上下文会线性增加显存使用量。如果你保留默认的 8k 上下文窗口，或者试图在没有显存限制的情况下推到 32k，KV Cache 将会瞬间吞噬你 24GB 显存中仅剩的 4-5GB 空间，导致硬崩溃。

修复 1：限制 Ollama 中的上下文

如果你使用 Ollama，必须在运行模型或 API 调用时明确限制上下文大小 (num_ctx)。

# 通过 CLI 运行并限制上下文
ollama run gemma4:31b --num_ctx 4096

如果你使用的是自定义 Modelfile，请添加此参数：

FROM gemma4:31b
PARAMETER num_ctx 4096

修复 2：管理 vLLM 中的显存利用率

如果你为了更高的吞吐量而通过 vLLM 部署，需要注意 vLLM 的默认行为是预先保留 90% 的 GPU 显存。对于 24GB 显卡上的 Gemma 4 31B，这种激进的保留策略通常会与操作系统的显存开销发生冲突。

你必须明确降低 gpu-memory-utilization 参数：

python -m vllm.entrypoints.openai.api_server \
  --model google/gemma-4-27b-it \
  --quantization awq \
  --gpu-memory-utilization 0.85 \
  --max-model-len 4096

修复 24GB 显卡上的 Gemma 4 显存溢出 (OOM) 报错

报错现象

根因分析：KV Cache 的隐性成本

修复 1：限制 Ollama 中的上下文

修复 2：管理 vLLM 中的显存利用率

相关指南

修复 24GB 显卡上的 Gemma 4 显存溢出 (OOM) 报错

报错现象

根因分析：KV Cache 的隐性成本

修复 1：限制 Ollama 中的上下文

修复 2：管理 vLLM 中的显存利用率

相关指南

显存规划

离线知识库 Agent