部署 更新于 2026-04-11 6 分钟

Gemma 4 本地部署教程:用 Ollama 在 Mac、Windows、Linux 上快速跑起来

如果你想找一条最快的路把 Gemma 4 在本地跑起来,先用 Ollama。基本流程很简单:安装 Ollama、拉取 gemma4 模型或指定版本、用 ollama list 确认模型可用,然后在 CLI 跑一跑,最后验证本地 API 是否正常。

属于系列内容:这篇部署教程是 Gemma 4 中文指南 的一部分。首页先解释 Gemma 4 家族和部署判断,这页再专门解决怎么跑起来的问题。

快速部署步骤

  1. 安装 Ollama。
  2. 拉取 gemma4 或指定版本。
  3. ollama list 确认模型已下载。
  4. 在 CLI 里运行模型。
  5. 调本地 API 并用 ollama ps 验证服务正常。

建议从这小步开始:先用 gemma4gemma4:e4b,确认工作流跑通之后,再决定是否值得用更大的版本占用更多内存。

安装 Ollama

ollama.com 下载官方安装包。Linux 上常用 shell 一键安装,Mac 上 Homebrew 或桌面 app 都可以,Windows 用官方安装程序最简单。

curl -fsSL https://ollama.com/install.sh | sh
brew install --cask ollama

Windows 安装后怎么确认没装歪

Windows 用安装程序装完之后,先做两件事:确认命令可用、确认服务正常监听。

# 1) 命令是否可用
ollama --version

# 2) PATH 是否包含 ollama(任意一个能返回路径即可)
where.exe ollama
Get-Command ollama

拉取 Gemma 4 并选对版本

Ollama 官方 gemma4 模型页默认给出最简运行方式,这仍然是大多数用户的正确起点。

先选哪个版本?(最短决策)

如果你只想“一次拉对”,按机器的显存/内存容忍的速度做选择。这里给一个够用的粗粒度决策表:

你的机器情况 推荐 tag 为什么
CPU 跑 / 独显 ≤ 6GB / 想先跑通工作流 gemma4:e2bgemma4:e4b 最省资源,速度更稳,适合先验证 CLI、API、脚本链路。
独显 8–12GB / Mac 统一内存 16GB+ gemma4:e4b 通常是“体验与成本”最平衡的一档:质量明显好于更小版本,但不至于把机器拖到很吃力。
独显 ≥ 12GB(越大越好)/ 更看重回答质量 gemma4:26b 质量更强,但下载体积、显存/内存占用和延迟都会上升。
独显 ≥ 16GB / 你明确追求最高质量 gemma4:31b 体量最大的一档,适合对质量敏感、且机器余量充足的情况。

补充说明:gemma4 是“默认 tag”,会随官方推荐更新;想让每次复现一致,就用明确的 e2b/e4b/26b/31b

ollama pull gemma4
ollama list
ollama run gemma4

如果你想明确控制模型大小,可以拉取指定版本:

ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31b

模型下载完成后,这些命令是最有用的第一轮检查:

ollama list
ollama ps
ollama run gemma4 "roses are red"

2 分钟资源/性能自检(避免“能跑但很痛苦”)

本地跑大模型除了“显存够不够”,更常见的瓶颈是内存(或 Mac 统一内存)上下文长度。下面这套自检能快速判断你该不该降级 tag。

  • 先看有没有在稳定跑:执行 ollama ps,确认模型进程存在且不会频繁退出重启。
  • 再看内存压力:如果系统开始大量使用交换分区/虚拟内存(卡顿、磁盘狂读写),优先换小一档模型(例如从 26b 降到 e4b)。
  • 最后看上下文:prompt 很长、上下文窗口很大时,延迟会明显上升。先用短 prompt 验证速度,再逐步加长。
# Linux:内存/交换分区是否顶满
free -h

# NVIDIA(Linux/Windows):如果你装了 nvidia-smi,可快速看显存占用与利用率
nvidia-smi

Windows/macOS 用户:如果感觉“系统明显变卡”,直接打开任务管理器/活动监视器看内存压力;一旦开始频繁换页,降级模型通常比“硬扛”更有效。

调本地 API

CLI 跑通之后,尽快测一下 API。这是判断本地环境是否准备好支持脚本、工具或小应用的最快方式。

curl http://localhost:11434/api/generate \
  -d '{"model":"gemma4","prompt":"Summarize why local AI matters.","stream":false}'

如果你在 Windows 上更习惯用 PowerShell,可以用下面这段(同样把 stream 设为 false,更容易一次性看到完整响应):

$body = @{
  model  = "gemma4"
  prompt = "Summarize why local AI matters."
  stream = $false
} | ConvertTo-Json

Invoke-RestMethod -Uri "http://localhost:11434/api/generate" `
  -Method Post -Body $body -ContentType "application/json"

Mac、Windows、Linux 有什么区别

  • Mac:如果已经用 Homebrew 或装了官方桌面版,最简单。
  • Windows:用官方安装程序,然后在 PowerShell 或终端里跑同样的 pull 和 run 命令。
  • Linux:shell 安装脚本通常是最快的第一步。

常见问题

下载很慢或经常中断

模型文件较大,网络波动容易中断。用 ollama pull gemma4 支持断点续传,中途断了再执行一次即可。如果网络不稳定,可以考虑用代理或换时间段下载。

模型能下载,但推理特别慢

大概率是硬件和所选版本不匹配,或者 prompt / 上下文长度超过了机器舒服带动的范围。先用 gemma4:e4b 这种最小版本确认流程没问题,再按需升级。

Mac 上跑起来很烫或风扇狂转

统一内存( Unified Memory )被占满会导致性能下降。确保后台没有其他吃内存的应用,或者把模型换成更小的 tag。Apple Silicon 的 Neural Engine 对这类任务有优化,但不是所有版本都触发了最佳路径。

Windows 上提示找不到 ollama 命令

安装程序一般会自动配置环境变量。先在 PowerShell 里跑:

ollama --version
where.exe ollama
Get-Command ollama

如果仍然找不到:

  • 完全退出并重开 PowerShell(或重启电脑)让 PATH 生效。
  • 确认是否装在默认目录(常见为 %LOCALAPPDATA%\Programs\Ollama\),并把该目录加入系统 PATH。

Windows 上 PowerShell 跑命令提示“权限/策略”错误

多数时候是你在执行脚本(而不是运行 ollama 本身)时被执行策略拦住。建议优先用官方安装程序,不要用来源不明的脚本;如果你必须在 PowerShell 里跑脚本,先检查执行策略:

Get-ExecutionPolicy -List

不要随意把策略改成 Unrestricted;如果你不确定自己在改什么,回到“用官方安装程序 + 直接跑 ollama 命令”的路径最稳。

Windows 防火墙拦了 11434,CLI 正常但 API 失败

Ollama 默认 API 端口是 11434。先确认端口是否在监听、以及本机连通:

# 端口连通性(推荐)
Test-NetConnection 127.0.0.1 -Port 11434

# 查看是否有进程占用/监听
netstat -ano | findstr 11434

如果 Test-NetConnection 失败或被拦,去“Windows 安全中心 → 防火墙和网络保护”里允许 Ollama 通过防火墙,或为 11434 增加入站规则后再试。

模型能跑,但系统变卡了

通常是内存压力,不是 Ollama 本身的故障。调小一档模型,或者关掉其他占用内存的 app。Linux 上可以用 free -h 查看内存使用情况。

API 报错,但 CLI 正常

先用 ollama ps 确认模型还在跑,再查一下客户端超时和请求大小。确认 curl 命令的 JSON 格式没有语法错误,引号是否用了正确的 ASCII 字符。

内容对你有帮助?欢迎请我喝杯咖啡 ☕ 支持独立站持续更新

赞赏码

Related guides