Gemma 4 本地部署教程:用 Ollama 在 Mac、Windows、Linux 上快速跑起来
如果你想找一条最快的路把 Gemma 4 在本地跑起来,先用 Ollama。基本流程很简单:安装 Ollama、拉取 gemma4 模型或指定版本、用 ollama list 确认模型可用,然后在 CLI 跑一跑,最后验证本地 API 是否正常。
属于系列内容:这篇部署教程是 Gemma 4 中文指南 的一部分。首页先解释 Gemma 4 家族和部署判断,这页再专门解决怎么跑起来的问题。
快速部署步骤
- 安装 Ollama。
- 拉取
gemma4或指定版本。 - 用
ollama list确认模型已下载。 - 在 CLI 里运行模型。
- 调本地 API 并用
ollama ps验证服务正常。
建议从这小步开始:先用 gemma4 或 gemma4:e4b,确认工作流跑通之后,再决定是否值得用更大的版本占用更多内存。
安装 Ollama
从 ollama.com 下载官方安装包。Linux 上常用 shell 一键安装,Mac 上 Homebrew 或桌面 app 都可以,Windows 用官方安装程序最简单。
curl -fsSL https://ollama.com/install.sh | sh
brew install --cask ollama
拉取 Gemma 4 并选对版本
Ollama 官方 gemma4 模型页默认给出最简运行方式,这仍然是大多数用户的正确起点。
ollama pull gemma4
ollama list
ollama run gemma4
如果你想明确控制模型大小,可以拉取指定版本:
ollama pull gemma4:e2b
ollama pull gemma4:e4b
ollama pull gemma4:26b
ollama pull gemma4:31b
模型下载完成后,这些命令是最有用的第一轮检查:
ollama list
ollama ps
ollama run gemma4 "roses are red"
调本地 API
CLI 跑通之后,尽快测一下 API。这是判断本地环境是否准备好支持脚本、工具或小应用的最快方式。
curl http://localhost:11434/api/generate \
-d '{"model":"gemma4","prompt":"Summarize why local AI matters."}'
Mac、Windows、Linux 有什么区别
- Mac:如果已经用 Homebrew 或装了官方桌面版,最简单。
- Windows:用官方安装程序,然后在 PowerShell 或终端里跑同样的 pull 和 run 命令。
- Linux:shell 安装脚本通常是最快的第一步。
常见问题
下载很慢或经常中断
模型文件较大,网络波动容易中断。用 ollama pull gemma4 支持断点续传,中途断了再执行一次即可。如果网络不稳定,可以考虑用代理或换时间段下载。
模型能下载,但推理特别慢
大概率是硬件和所选版本不匹配,或者 prompt / 上下文长度超过了机器舒服带动的范围。先用 gemma4:e4b 这种最小版本确认流程没问题,再按需升级。
Mac 上跑起来很烫或风扇狂转
统一内存( Unified Memory )被占满会导致性能下降。确保后台没有其他吃内存的应用,或者把模型换成更小的 tag。Apple Silicon 的 Neural Engine 对这类任务有优化,但不是所有版本都触发了最佳路径。
Windows 上提示找不到 ollama 命令
安装程序一般会自动配置环境变量。尝试验证 ollama 是否在 PATH 中:打开 PowerShell 输入 ollama --version,如果没有输出,先重启终端或重新登录系统让环境变量生效。
模型能跑,但系统变卡了
通常是内存压力,不是 Ollama 本身的故障。调小一档模型,或者关掉其他占用内存的 app。Linux 上可以用 free -h 查看内存使用情况。
API 报错,但 CLI 正常
先用 ollama ps 确认模型还在跑,再查一下客户端超时和请求大小。确认 curl 命令的 JSON 格式没有语法错误,引号是否用了正确的 ASCII 字符。