Gemma 4 怎么在 Windows 上装?Ollama 安装 + 常见报错全解
Windows 用户装 Gemma 4,绝大多数走 Ollama 这条路最省事。整个流程不超过 10 分钟:装 Ollama、拉模型、确认 GPU 有没有用上、跑一下 CLI。这篇只说 Windows,不把 Mac 和 Linux 的步骤混进来让你看着眼花。
先确认你的显卡:NVIDIA 显卡(GTX 10 系以上)Ollama 都支持 GPU 加速,RTX 系列尤其稳。AMD 显卡在 Windows 下支持相对有限,装之前先查一下自己的型号。没有独显、纯 CPU 跑也可以,但速度会慢很多,建议拉 gemma4:e4b 这种小版本。
快速结论
如果你只想知道最短路径:Windows 上装 Gemma 4,先装 Ollama,再拉 gemma4:e4b,最后用 ollama run 和本地 API 做一次验证。大多数 6-8 GB 显存的 NVIDIA 显卡都适合从 E4B 起步;如果你没有独显,也可以先用 CPU 跑通流程,但速度会明显慢一些。
| 你的情况 | 建议 | 原因 |
|---|---|---|
| 第一次在 Windows 上装本地模型 | 先用 gemma4:e4b |
安装最快、资源门槛最低,最适合先把工作流跑通。 |
| 显存 6-8 GB | 优先走 Ollama + E4B | 大多数 RTX 3060/3070/4060/4070 都能稳定带动。 |
| 没有独显 | 先验证 CLI 和 API | CPU 能跑但偏慢,重点是先确认环境没问题。 |
| 你还不确定显卡够不够 | 先看 显存需求指南 | 先按硬件选版本,比装完再排错更省时间。 |
第一步:装 Ollama
去 ollama.com/download/windows 下载安装包,双击安装,全程 Next 就行。安装完成后,Ollama 会在后台启动一个本地服务,不需要你手动开启。
如果你想先确认安装包来源和版本说明,优先以 Ollama Windows 官方下载页 为准,不要随便从第三方软件下载站拿安装包。
装完之后,打开 PowerShell(不用管理员权限),跑这两行确认没装歪:
ollama --version
where.exe ollama
如果两行都有输出,说明 Ollama 安装正常,PATH 也配好了。如果提示"找不到命令",先完全关掉 PowerShell 再重开,或者重启一次电脑让环境变量生效。
装完没反应?Ollama 在 Windows 上装完是后台静默运行的,任务栏右下角能看到一个小图标。如果没看到图标,去开始菜单搜 Ollama 手动打开一次。
第二步:选对版本,一次拉对
Gemma 4 有好几个版本,很多人第一次装不知道拉哪个。按显卡显存选就好:
| 你的显卡显存 | 推荐版本 | 说明 |
|---|---|---|
| 没有独显 / 显存 ≤ 4GB | gemma4:e2b |
最省资源,CPU 跑也勉强能用,速度慢但能跑通。 |
| 显存 6–8GB(比如 RTX 3060、3070) | gemma4:e4b |
最推荐的入门档,速度和质量都过得去,不会把显卡整爆。 |
| 显存 12GB(RTX 3080、4070 等) | gemma4:26b |
质量明显更强,回答更稳,代码能力好一档。 |
| 显存 16GB 以上 | gemma4:31b |
目前最大的本地版本,机器够就拉这个。 |
不确定自己显存多少?任务管理器 → 性能 → GPU,就能看到。
如果你还没决定,就先从 E4B 版本详解 了解它的上限和适用场景。确认好版本之后,在 PowerShell 里拉:
ollama pull gemma4:e4b
模型文件比较大,e4b 大概 3–4 GB,26b 大概 15 GB 以上,拉的时候正常等就行,支持断点续传,网断了再跑一次同样的命令继续。拉完之后验证一下:
ollama list
能看到 gemma4:e4b 在列表里就说明拉成功了。然后直接跑起来:
ollama run gemma4:e4b
进入对话界面,随便问一句,能回答就说明本地模型完全跑通了。
第三步:确认有没有用上 GPU
这一步很多人跳过,结果模型跑得很慢,不知道是配置问题还是电脑太差。其实确认方法很简单:
# 模型运行时,另开一个 PowerShell 窗口执行:
nvidia-smi
看 GPU-Util 这一列,如果在模型推理时这个数值明显不为 0(通常会到 30%–90%),说明 GPU 加速生效了。如果一直是 0,模型在用 CPU 跑。
CPU 跑模型也不是不行,就是慢。e4b 版本 CPU 跑大概每秒 3–8 个 token,GPU 跑能到 30–80 token/s,差距明显。如果发现没用上 GPU,先确认 NVIDIA 驱动是最新版本,必要时去 NVIDIA 官方驱动下载页 重装驱动。
第四步:跑通本地 API
CLI 能用之后,建议顺手把 API 也验证一下。很多工具(比如 Open WebUI、各种脚本)都通过 API 调 Ollama,提前跑通省事。
PowerShell 下直接跑:
$body = @{
model = "gemma4:e4b"
prompt = "用一句话解释什么是本地 AI。"
stream = $false
} | ConvertTo-Json
Invoke-RestMethod -Uri "http://localhost:11434/api/generate" `
-Method Post -Body $body -ContentType "application/json"
能拿到 JSON 响应就说明 API 正常。如果你更习惯 curl,在 Windows Terminal 里也可以用:
curl http://localhost:11434/api/generate -d "{\"model\":\"gemma4:e4b\",\"prompt\":\"Hello\",\"stream\":false}"
常见报错和处理方式
装完提示"ollama 不是内部或外部命令"
PATH 没生效,最简单的办法是重启一次电脑。如果重启后还是找不到,说明安装没走默认路径,去 C:\Users\你的用户名\AppData\Local\Programs\Ollama\ 看看有没有 ollama.exe,有的话手动把这个目录加到系统 PATH 里。
下载速度很慢,经常卡住
模型文件是从 Ollama 官方服务器拉的,大陆地区访问可能有些慢。挂代理是最直接的解法,或者换在凌晨下载。Ollama 支持断点续传,网断了重新跑 ollama pull 继续下就行,不用从头来。
跑起来以后推理速度很慢,每秒就几个字
大概率是没用上 GPU,或者用的版本对显存要求超过了你的卡。先跑 nvidia-smi 看 GPU 利用率,如果真是 CPU 在跑,换小一档版本(比如从 26b 换到 e4b)或者检查驱动。
API 返回 "connection refused"
说明 Ollama 服务没在跑。先看任务栏右下角有没有 Ollama 图标,没有的话手动启动。如果有图标但 API 还是报错,先确认端口没被防火墙拦:
Test-NetConnection 127.0.0.1 -Port 11434
如果 TcpTestSucceeded 是 False,去 Windows 安全中心 → 防火墙和网络保护,给 Ollama 加一条入站规则允许 11434 端口。
PowerShell 报"执行策略"错误
这个错误一般出现在你试图执行 .ps1 脚本文件时,直接在 PowerShell 里运行 ollama 命令不受这个限制。如果是脚本报错,可以用管理员权限开 PowerShell 然后执行:
Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
改完之后记得再改回去,或者改成 AllSigned,不要长期开着 Unrestricted。
跑着跑着系统变卡,任务管理器内存占满
模型正在用内存当显存用(内存转存),说明所选版本超过了你的硬件上限。最直接的办法是换小一档:从 26b 换 e4b,或者从 e4b 换 e2b。关掉其他占内存的软件(浏览器开了很多标签页?)也有帮助。
内容对你有帮助?欢迎请我喝杯咖啡 ☕ 支持独立站持续更新