Gemma 4をローカルで動かすなら、まずOllamaで1回きちんと返答させる
Gemma 4を自分のPCで試したい日本語ユーザーが最初に知りたいのは、難しい理屈ではなく「何を入れて、どのモデルを選び、どこで詰まりやすいか」です。このページでは、Ollamaを使って最短で立ち上げる流れを、Mac・Windows・Linuxごとの実際のつまずきポイント込みで整理します。
最初の答え: 迷ったら gemma4:e4b を選んでください。日本語での確認もしやすく、Apple Silicon や VRAM 6〜8GB 級の環境で一番失敗しにくいスタート地点です。
最短答え
Gemma 4をローカルで動かす最短ルートは、Ollamaを入れる → gemma4:e4b を pull する → CLIで1回返答を確認する → localhost:11434 のAPIを叩く の4手です。ここで1回でも返答が返れば、以降の調整は「モデルを大きくするか」「速度を上げるか」の話に変わります。
逆に最初から 26B や 31B を選ぶと、ダウンロード時間、メモリ圧迫、GPU未使用の切り分けが一気に重なります。日本語で使えるかを見たいだけなら、まず e4b で流れを固める方が現実的です。
最初の3分チェック
「まず1回だけ正しく動かしたい」という人は、次の5項目だけ確認すれば十分です。ここを全部通せたら、Gemma 4 のローカル実行基盤はほぼ整っています。
ollama --versionが通るollama pull gemma4:e4bが完了するollama run gemma4:e4bで日本語の返答が返るollama psで実行中モデルが見えるhttp://localhost:11434/api/generateで JSON が返る
逆にどこか1つで止まったら、その地点だけ切り分ければ足ります。最初から GPU 最適化や大きいモデル選びに進むより、確認ポイントを細かく分けた方が早く解決できます。
Ollamaを入れて、コマンドが通るところまで確認する
Ollamaは公式サイトから入れるのが最短です。MacならHomebrew、Linuxなら公式スクリプト、Windowsならインストーラーで問題ありません。
brew install --cask ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama --version
Windowsではインストール直後にターミナルを開きっぱなしだと PATH がまだ反映されていないことがあります。ollama --version が通らないときは、PowerShell や Windows Terminal を閉じて開き直してください。
Windowsで最初に見る場所: タスクトレイにOllamaのアイコンが出ているか確認します。出ていなければ、アプリは入っていてもサービスが立ち上がっていません。
最初のモデルはどう選ぶか
日本語で試すだけなら、最初から最大サイズを選ぶ必要はありません。失敗しにくさで選ぶなら次の表が一番実用的です。
| 手元の環境 | 最初の候補 | 判断理由 |
|---|---|---|
| GPUなし / メモリが厳しい | gemma4:e2b |
まず動作経路を確認したいときの最軽量枠。 |
| VRAM 6〜8GB / Apple Silicon 16GB前後 | gemma4:e4b |
日本語の試用、要約、一般的な対話なら一番バランスが良い。 |
| VRAM 12GB以上で品質重視 | gemma4:26b |
品質は上がるが、最初の確認用としては重い。 |
| 24GB級GPUで上限を試したい | gemma4:31b |
本格運用向け。初回セットアップ向きではない。 |
迷ったら e4b を選び、動いたあとで大きいタグに移るのが一番手戻りの少ない流れです。GPUや統合メモリの目安は VRAM guide でも確認できます。
CLIで1回返答させる
モデルを選んだら、まず pull して一覧に出ることを確認します。
ollama pull gemma4:e4b
ollama list
ollama ps
ollama run gemma4:e4b
ollama list はダウンロード済みモデルの確認、ollama ps は今まさに応答を返しているモデルの確認です。両方を見ると「入っているが動いていない」のか、「実際に推論まで進んでいる」のかを切り分けやすくなります。
起動したら、日本語で短い質問を1つ投げてください。ここで返答が返り、別ターミナルの ollama ps にモデルが出ていれば、ローカル実行の基盤は整っています。
>>> 日本語で3行だけ自己紹介してください
応答が極端に遅い場合は、GPUが使えていないか、モデルサイズが環境に対して大きすぎることが多いです。まずは e2b か e4b に戻して原因を切り分ける方が早く進みます。
localhost:11434 のAPIを確認する
CLIの次にやるべきなのはAPI確認です。自作ツールやスクリプト連携を考えているなら、ここが通るかどうかが実用ラインになります。
curl http://localhost:11434/api/generate -d '{"model":"gemma4:e4b","prompt":"ローカルAIを使う利点を一言で教えて","stream":false}'
PowerShellを使うならこちらでも確認できます。
$body = @{
model = "gemma4:e4b"
prompt = "ローカルAIを使う利点を一言で教えて"
stream = $false
} | ConvertTo-Json
Invoke-RestMethod -Uri "http://localhost:11434/api/generate" `
-Method Post -Body $body -ContentType "application/json"
JSONレスポンスが返れば、CLIだけでなくアプリ連携の準備もできています。
日本語ユーザーが詰まりやすいポイント
Windowsで ollama が見つからない
PATH未反映が典型です。ターミナルを再起動し、それでもだめならインストール先が %LOCALAPPDATA%\Programs\Ollama\ にあるか確認します。
ダウンロードはできたのに推論が遅すぎる
多くはGPU未使用か、モデルサイズの選び過ぎです。最初の確認段階では「高品質」より「安定して返る」ことを優先してください。
CLIは動くのにAPIがつながらない
Ollamaのバックグラウンドサービスが止まっているか、Windowsファイアウォールが 11434 を止めている可能性があります。
Test-NetConnection 127.0.0.1 -Port 11434
よくある質問
最初に選ぶなら e4b と e2b のどちらですか?
GPUなしやかなり軽い環境でなければ e4b が無難です。日本語の試用で体感差が出やすく、それでも初回セットアップとしては重すぎません。
MacでもWindowsでも手順は同じですか?
流れは同じです。違いはインストール方法とトラブル箇所で、Macは統合メモリ、WindowsはPATHとファイアウォール確認が最初の分かれ目です。
CLIだけ動けば十分ですか?
試用だけなら十分ですが、ツール連携やアプリ開発を考えるならAPI確認まで済ませておく方が後戻りしません。CLIの確認後に ollama ps と localhost:11434 のAPIを見れば、実行中モデルと外部接続の両方を一度に確認できます。
ollama list と ollama ps はどう使い分けますか?
ollama list は「何をダウンロード済みか」を見るコマンドで、ollama ps は「今どのモデルが動いているか」を見るコマンドです。ローカル導入の初回確認では、この2つを並べて見ると詰まりどころを最短で切り分けられます。