Gemma 4 本地部署教程:用 Ollama 在 Mac、Windows、Linux 上快速跑起来
如果你想找一条最快的路把 Gemma 4 在本地跑起来,先用 Ollama。基本流程很简单:安装 Ollama、拉取 gemma4 模型或指定版本、用 ollama list 确认模型可用,然后在 CLI 跑一跑,最后验证本地 API 是否正常。
属于系列内容:这篇部署教程是 Gemma 4 中文指南 的一部分。首页先解释 Gemma 4 家族和部署判断,这页再专门解决怎么跑起来的问题。
快速部署步骤
- 安装 Ollama。
- 拉取
gemma4或指定版本。 - 用
ollama list确认模型已下载。 - 在 CLI 里运行模型。
- 调本地 API 并用
ollama ps验证服务正常。
建议从这小步开始:先用 gemma4 或 gemma4:e4b,确认工作流跑通之后,再决定是否值得用更大的版本占用更多内存。
安装 Ollama
从 ollama.com 下载官方安装包。Linux 上常用 shell 一键安装,Mac 上 Homebrew 或桌面 app 都可以,Windows 用官方安装程序最简单。
curl -fsSL https://ollama.com/install.sh | sh
brew install --cask ollama
Windows 安装后怎么确认没装歪
Windows 用安装程序装完之后,先做两件事:确认命令可用、确认服务正常监听。
# 1) 命令是否可用
ollama --version
# 2) PATH 是否包含 ollama(任意一个能返回路径即可)
where.exe ollama
Get-Command ollama
拉取 Gemma 4 并选对版本
Ollama 官方 gemma4 模型页默认给出最简运行方式,这仍然是大多数用户的正确起点。
先选哪个版本?(最短决策)
如果你只想“一次拉对”,按机器的显存/内存和容忍的速度做选择。这里给一个够用的粗粒度决策表:
| 你的机器情况 | 推荐 tag | 为什么 |
|---|---|---|
| CPU 跑 / 独显 ≤ 6GB / 想先跑通工作流 | gemma4:e2b 或 gemma4:e4b |
最省资源,速度更稳,适合先验证 CLI、API、脚本链路。 |
| 独显 8–12GB / Mac 统一内存 16GB+ | gemma4:e4b |
通常是“体验与成本”最平衡的一档:质量明显好于更小版本,但不至于把机器拖到很吃力。 |
| 独显 ≥ 12GB(越大越好)/ 更看重回答质量 | gemma4:26b |
质量更强,但下载体积、显存/内存占用和延迟都会上升。 |
| 独显 ≥ 16GB / 你明确追求最高质量 | gemma4:31b |
体量最大的一档,适合对质量敏感、且机器余量充足的情况。 |
补充说明:gemma4 是“默认 tag”,会随官方推荐更新;想让每次复现一致,就用明确的 e2b/e4b/26b/31b。
ollama pull gemma4
ollama list
ollama run gemma4
如果你想明确控制模型大小,可以拉取指定版本:
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31b
模型下载完成后,这些命令是最有用的第一轮检查:
ollama list
ollama ps
ollama run gemma4 "roses are red"
2 分钟资源/性能自检(避免“能跑但很痛苦”)
本地跑大模型除了“显存够不够”,更常见的瓶颈是内存(或 Mac 统一内存)和上下文长度。下面这套自检能快速判断你该不该降级 tag。
- 先看有没有在稳定跑:执行
ollama ps,确认模型进程存在且不会频繁退出重启。 - 再看内存压力:如果系统开始大量使用交换分区/虚拟内存(卡顿、磁盘狂读写),优先换小一档模型(例如从 26b 降到 e4b)。
- 最后看上下文:prompt 很长、上下文窗口很大时,延迟会明显上升。先用短 prompt 验证速度,再逐步加长。
# Linux:内存/交换分区是否顶满
free -h
# NVIDIA(Linux/Windows):如果你装了 nvidia-smi,可快速看显存占用与利用率
nvidia-smi
Windows/macOS 用户:如果感觉“系统明显变卡”,直接打开任务管理器/活动监视器看内存压力;一旦开始频繁换页,降级模型通常比“硬扛”更有效。
调本地 API
CLI 跑通之后,尽快测一下 API。这是判断本地环境是否准备好支持脚本、工具或小应用的最快方式。
curl http://localhost:11434/api/generate \
-d '{"model":"gemma4","prompt":"Summarize why local AI matters.","stream":false}'
如果你在 Windows 上更习惯用 PowerShell,可以用下面这段(同样把 stream 设为 false,更容易一次性看到完整响应):
$body = @{
model = "gemma4"
prompt = "Summarize why local AI matters."
stream = $false
} | ConvertTo-Json
Invoke-RestMethod -Uri "http://localhost:11434/api/generate" `
-Method Post -Body $body -ContentType "application/json"
Mac、Windows、Linux 有什么区别
- Mac:如果已经用 Homebrew 或装了官方桌面版,最简单。
- Windows:用官方安装程序,然后在 PowerShell 或终端里跑同样的 pull 和 run 命令。
- Linux:shell 安装脚本通常是最快的第一步。
常见问题
下载很慢或经常中断
模型文件较大,网络波动容易中断。用 ollama pull gemma4 支持断点续传,中途断了再执行一次即可。如果网络不稳定,可以考虑用代理或换时间段下载。
模型能下载,但推理特别慢
大概率是硬件和所选版本不匹配,或者 prompt / 上下文长度超过了机器舒服带动的范围。先用 gemma4:e4b 这种最小版本确认流程没问题,再按需升级。
Mac 上跑起来很烫或风扇狂转
统一内存( Unified Memory )被占满会导致性能下降。确保后台没有其他吃内存的应用,或者把模型换成更小的 tag。Apple Silicon 的 Neural Engine 对这类任务有优化,但不是所有版本都触发了最佳路径。
Windows 上提示找不到 ollama 命令
安装程序一般会自动配置环境变量。先在 PowerShell 里跑:
ollama --version
where.exe ollama
Get-Command ollama
如果仍然找不到:
- 先完全退出并重开 PowerShell(或重启电脑)让 PATH 生效。
- 确认是否装在默认目录(常见为
%LOCALAPPDATA%\Programs\Ollama\),并把该目录加入系统 PATH。
Windows 上 PowerShell 跑命令提示“权限/策略”错误
多数时候是你在执行脚本(而不是运行 ollama 本身)时被执行策略拦住。建议优先用官方安装程序,不要用来源不明的脚本;如果你必须在 PowerShell 里跑脚本,先检查执行策略:
Get-ExecutionPolicy -List
不要随意把策略改成 Unrestricted;如果你不确定自己在改什么,回到“用官方安装程序 + 直接跑 ollama 命令”的路径最稳。
Windows 防火墙拦了 11434,CLI 正常但 API 失败
Ollama 默认 API 端口是 11434。先确认端口是否在监听、以及本机连通:
# 端口连通性(推荐)
Test-NetConnection 127.0.0.1 -Port 11434
# 查看是否有进程占用/监听
netstat -ano | findstr 11434
如果 Test-NetConnection 失败或被拦,去“Windows 安全中心 → 防火墙和网络保护”里允许 Ollama 通过防火墙,或为 11434 增加入站规则后再试。
模型能跑,但系统变卡了
通常是内存压力,不是 Ollama 本身的故障。调小一档模型,或者关掉其他占用内存的 app。Linux 上可以用 free -h 查看内存使用情况。
API 报错,但 CLI 正常
先用 ollama ps 确认模型还在跑,再查一下客户端超时和请求大小。确认 curl 命令的 JSON 格式没有语法错误,引号是否用了正确的 ASCII 字符。
内容对你有帮助?欢迎请我喝杯咖啡 ☕ 支持独立站持续更新