Gemma 4 本地部署教程：Ollama、Mac、Windows 快速上手

快速部署步骤

安装 Ollama。
拉取 gemma4 或指定版本。
用 ollama list 确认模型已下载。
在 CLI 里运行模型。
调本地 API 并用 ollama ps 验证服务正常。

建议从这小步开始：先用 gemma4 或 gemma4:e4b，确认工作流跑通之后，再决定是否值得用更大的版本占用更多内存。

安装 Ollama

从 ollama.com 下载官方安装包。Linux 上常用 shell 一键安装，Mac 上 Homebrew 或桌面 app 都可以，Windows 用官方安装程序最简单。

curl -fsSL https://ollama.com/install.sh | sh

brew install --cask ollama

Windows 安装后怎么确认没装歪

Windows 用安装程序装完之后，先做两件事：确认命令可用、确认服务正常监听。

# 1) 命令是否可用
ollama --version

# 2) PATH 是否包含 ollama（任意一个能返回路径即可）
where.exe ollama
Get-Command ollama

拉取 Gemma 4 并选对版本

Ollama 官方 gemma4 模型页默认给出最简运行方式，这仍然是大多数用户的正确起点。

先选哪个版本？（最短决策）

如果你只想“一次拉对”，按机器的显存/内存和容忍的速度做选择。这里给一个够用的粗粒度决策表：

你的机器情况	推荐 tag	为什么
CPU 跑 / 独显 ≤ 6GB / 想先跑通工作流	`gemma4:e2b` 或 `gemma4:e4b`	最省资源，速度更稳，适合先验证 CLI、API、脚本链路。
独显 8–12GB / Mac 统一内存 16GB+	`gemma4:e4b`	通常是“体验与成本”最平衡的一档：质量明显好于更小版本，但不至于把机器拖到很吃力。
独显 ≥ 12GB（越大越好）/ 更看重回答质量	`gemma4:26b`	质量更强，但下载体积、显存/内存占用和延迟都会上升。
独显 ≥ 16GB / 你明确追求最高质量	`gemma4:31b`	体量最大的一档，适合对质量敏感、且机器余量充足的情况。

补充说明：gemma4 是“默认 tag”，会随官方推荐更新；想让每次复现一致，就用明确的 e2b/e4b/26b/31b。

ollama pull gemma4
ollama list
ollama run gemma4

如果你想明确控制模型大小，可以拉取指定版本：

ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31b

模型下载完成后，这些命令是最有用的第一轮检查：

ollama list
ollama ps
ollama run gemma4 "roses are red"

2 分钟资源/性能自检（避免“能跑但很痛苦”）

本地跑大模型除了“显存够不够”，更常见的瓶颈是内存（或 Mac 统一内存）和上下文长度。下面这套自检能快速判断你该不该降级 tag。

先看有没有在稳定跑：执行 ollama ps，确认模型进程存在且不会频繁退出重启。
再看内存压力：如果系统开始大量使用交换分区/虚拟内存（卡顿、磁盘狂读写），优先换小一档模型（例如从 26b 降到 e4b）。
最后看上下文：prompt 很长、上下文窗口很大时，延迟会明显上升。先用短 prompt 验证速度，再逐步加长。

# Linux：内存/交换分区是否顶满
free -h

# NVIDIA（Linux/Windows）：如果你装了 nvidia-smi，可快速看显存占用与利用率
nvidia-smi

Windows/macOS 用户：如果感觉“系统明显变卡”，直接打开任务管理器/活动监视器看内存压力；一旦开始频繁换页，降级模型通常比“硬扛”更有效。

调本地 API

CLI 跑通之后，尽快测一下 API。这是判断本地环境是否准备好支持脚本、工具或小应用的最快方式。

curl http://localhost:11434/api/generate \
  -d '{"model":"gemma4","prompt":"Summarize why local AI matters.","stream":false}'

如果你在 Windows 上更习惯用 PowerShell，可以用下面这段（同样把 stream 设为 false，更容易一次性看到完整响应）：

$body = @{
  model  = "gemma4"
  prompt = "Summarize why local AI matters."
  stream = $false
} | ConvertTo-Json

Invoke-RestMethod -Uri "http://localhost:11434/api/generate" `
  -Method Post -Body $body -ContentType "application/json"

Mac、Windows、Linux 有什么区别

Mac：如果已经用 Homebrew 或装了官方桌面版，最简单。
Windows：用官方安装程序，然后在 PowerShell 或终端里跑同样的 pull 和 run 命令。
Linux：shell 安装脚本通常是最快的第一步。

常见问题

下载很慢或经常中断

模型文件较大，网络波动容易中断。用 ollama pull gemma4 支持断点续传，中途断了再执行一次即可。如果网络不稳定，可以考虑用代理或换时间段下载。

模型能下载，但推理特别慢

大概率是硬件和所选版本不匹配，或者 prompt / 上下文长度超过了机器舒服带动的范围。先用 gemma4:e4b 这种最小版本确认流程没问题，再按需升级。

Mac 上跑起来很烫或风扇狂转

统一内存（ Unified Memory ）被占满会导致性能下降。确保后台没有其他吃内存的应用，或者把模型换成更小的 tag。Apple Silicon 的 Neural Engine 对这类任务有优化，但不是所有版本都触发了最佳路径。

Windows 上提示找不到 ollama 命令

安装程序一般会自动配置环境变量。先在 PowerShell 里跑：

ollama --version
where.exe ollama
Get-Command ollama

如果仍然找不到：

先完全退出并重开 PowerShell（或重启电脑）让 PATH 生效。
确认是否装在默认目录（常见为 %LOCALAPPDATA%\Programs\Ollama\），并把该目录加入系统 PATH。

Windows 上 PowerShell 跑命令提示“权限/策略”错误

多数时候是你在执行脚本（而不是运行 ollama 本身）时被执行策略拦住。建议优先用官方安装程序，不要用来源不明的脚本；如果你必须在 PowerShell 里跑脚本，先检查执行策略：

Get-ExecutionPolicy -List

不要随意把策略改成 Unrestricted；如果你不确定自己在改什么，回到“用官方安装程序 + 直接跑 ollama 命令”的路径最稳。

Windows 防火墙拦了 11434，CLI 正常但 API 失败

Ollama 默认 API 端口是 11434。先确认端口是否在监听、以及本机连通：

# 端口连通性（推荐）
Test-NetConnection 127.0.0.1 -Port 11434

# 查看是否有进程占用/监听
netstat -ano | findstr 11434

如果 Test-NetConnection 失败或被拦，去“Windows 安全中心 → 防火墙和网络保护”里允许 Ollama 通过防火墙，或为 11434 增加入站规则后再试。

模型能跑，但系统变卡了

通常是内存压力，不是 Ollama 本身的故障。调小一档模型，或者关掉其他占用内存的 app。Linux 上可以用 free -h 查看内存使用情况。

API 报错，但 CLI 正常

先用 ollama ps 确认模型还在跑，再查一下客户端超时和请求大小。确认 curl 命令的 JSON 格式没有语法错误，引号是否用了正确的 ASCII 字符。

Gemma 4 本地部署教程：用 Ollama 在 Mac、Windows、Linux 上快速跑起来

快速部署步骤

安装 Ollama

Windows 安装后怎么确认没装歪

拉取 Gemma 4 并选对版本

先选哪个版本？（最短决策）

2 分钟资源/性能自检（避免“能跑但很痛苦”）

调本地 API

Mac、Windows、Linux 有什么区别

常见问题

下载很慢或经常中断

模型能下载，但推理特别慢

Mac 上跑起来很烫或风扇狂转

Windows 上提示找不到 ollama 命令

Windows 上 PowerShell 跑命令提示“权限/策略”错误

Windows 防火墙拦了 11434，CLI 正常但 API 失败

模型能跑，但系统变卡了

API 报错，但 CLI 正常

Related guides

Gemma 4 本地部署教程：用 Ollama 在 Mac、Windows、Linux 上快速跑起来

快速部署步骤

安装 Ollama

Windows 安装后怎么确认没装歪

拉取 Gemma 4 并选对版本

先选哪个版本？（最短决策）

2 分钟资源/性能自检（避免“能跑但很痛苦”）

调本地 API

Mac、Windows、Linux 有什么区别

常见问题

下载很慢或经常中断

模型能下载，但推理特别慢

Mac 上跑起来很烫或风扇狂转

Windows 上提示找不到 ollama 命令

Windows 上 PowerShell 跑命令提示“权限/策略”错误

Windows 防火墙拦了 11434，CLI 正常但 API 失败

模型能跑，但系统变卡了

API 报错，但 CLI 正常

Related guides

Gemma 4 Ollama 安装教程

Gemma 4 显存需求

Gemma 4 vs Qwen3