Gemma 4 を入れる前に、自分の GPU や Mac でどのサイズまで無理なく動くかを先に決める
最初に結論だけ言うと、E4B は 6〜8GB 級で始めやすく、26B A4B は 16GB 前後から現実的になり、31B は 24GB 級を前提に考えるのが安全です。このページは、そのざっくりした数字を GPU 別と Apple Silicon 別の判断に落とし込むための日本語ガイドです。
このページの役割: ここでは「動くか」を先に判断します。実際の導入手順は ローカル実行ガイド で確認してください。
最短答え
迷ったら、まず gemma4:e4b を基準に考えてください。6〜8GB 級や 16GB 前後の Mac でも試しやすく、ローカル実行の流れを確認するには十分です。いきなり 26B や 31B に行くと、ダウンロード時間、メモリ不足、GPU 未使用の切り分けが一気に重なって判断が遅れます。
失敗しにくい順番: まず「無理なく動くサイズ」を選ぶ → 実際に返答速度を確認する → 足りなければ上のサイズへ進む。この順番の方が、最初から最大サイズを狙うより手戻りが少なくなります。
モデル別 VRAM 早見表
以下はローカル利用時の目安です。実際には KV キャッシュや実行オーバーヘッド分の余裕も必要です。
| モデル | Q2 | Q4(標準) | Q5 | FP16 | 使い分けの目安 |
|---|---|---|---|---|---|
| E2B | 約0.8 GB | 約1.5 GB | 約1.8 GB | 約4 GB | かなり軽い環境や CPU 寄りの確認向け。 |
| E4B | 約2 GB | 約3.5 GB | 約4.2 GB | 約8 GB | 最初のローカル実行確認に一番向いています。 |
| 26B A4B | 約9 GB | 約14 GB | 約17 GB | 約52 GB | 品質を上げたい人向けだが、ハード要件は急に重くなります。 |
| 31B | 約12 GB | 約20 GB | 約24 GB | 約62 GB | 24GB 級 GPU で初めて気持ちよく扱える上位帯です。 |
長い会話や大きな文書では、さらに 1〜4GB 前後の余裕を見ておくと安全です。
サイズごとの見方
E4B
E4B は「まず 1 回ちゃんと動かしたい」人向けの出発点です。速度と必要メモリのバランスが良く、Gemma 4 が自分の用途に合うかを試すには十分な品質があります。
26B A4B
26B A4B は、E4B では物足りないと感じたあとに検討するサイズです。ギリギリで押し込むより、余裕のある 16GB 級以上で使った方が「上げた価値」が見えやすくなります。
31B
31B はローカル品質を優先する人向けです。24GB 級が見えていない段階で選ぶと、動作そのものよりメモリ圧迫が主役になりやすいです。
GPU 別に見るとどうなるか
手元の GPU から逆引きしたい人向けの早見表です。ここで「厳しい」と感じるなら、ひとつ下のサイズから始める方が結果的に早く前に進めます。
| GPU | VRAM | E4B | 26B A4B | 31B |
|---|---|---|---|---|
| GTX 1060 / RX 580 | 6 GB | Q4 で動作 | 不可 | 不可 |
| RTX 2060 / RX 5700 | 6〜8 GB | 快適 | 不可 | 不可 |
| RTX 3060 Ti / RTX 4060 | 8 GB | 快適 | 不可 | 不可 |
| RTX 3080 10GB | 10 GB | 快適 | Q2 のみ | 不可 |
| RTX 3060 / RTX 4070 | 12 GB | 快適 | Q2 だと割に合いにくい | 不可 |
| RTX 4070 Ti Super / RTX 4080 | 16 GB | 快適 | Q4 で現実的 | Q2 のみ |
| RTX 3090 / RTX 4090 | 24 GB | 快適 | Q5 でも余裕あり | Q4 で現実的 |
| RTX 6000 Ada / A6000 | 48 GB | 快適 | FP16 も視野 | Q5 でも余裕あり |
質問が多い 3080 の結論: 10GB でも 12GB でも、Gemma 4 なら E4B を気持ちよく使うカードと考える方が実務的です。大きいサイズを無理に詰めるより、E4B を安定して回す方が満足度は高くなります。
Apple Silicon の統合メモリ
Mac では RAM と VRAM が同じプールです。つまり、見かけ上の GPU メモリではなく「OS に取られたあとで AI にどれだけ残るか」で考える方が正確です。
| Mac 構成 | AI に回せる目安 | 最初の候補 |
|---|---|---|
| 8 GB | 約3〜4 GB | E4B |
| 16 GB | 約10〜12 GB | E4B を基準に、用途次第で 26B A4B も検討 |
| 18〜36 GB | 約12〜30 GB | 26B A4B が現実的 |
| 64 GB | 約58 GB | 31B も視野 |
| 96〜192 GB | かなり余裕あり | 31B を妥協なく使いやすい |
Mac で失敗しやすいのは「理論上載る」ことと「普段使いとして快適」なことを混同する点です。ギリギリ載る構成より、返答速度とシステム全体の軽さが保てる構成を選ぶ方が後悔しません。
量子化の考え方
量子化は、大きいモデルを少ないメモリで動かすための現実的な手段です。ただし、サイズだけ見て無理に上を選ぶと、品質の落ち方が気になることがあります。
| 量子化 | 品質の見方 | 使いどころ |
|---|---|---|
| FP16 | 基準 | 十分なメモリがある環境向け。 |
| Q5 | かなり良い | 品質とサイズの両立を狙うとき。 |
| Q4 | 標準的で扱いやすい | 幅広いローカル用途の基準。 |
| Q3 | 落ち込みが見えやすい | かなり制約が厳しいときだけ。 |
| Q2 | 最終手段 | どうしても入らないときの妥協案。 |
判断ルール
| 状況 | まず選ぶもの | 理由 |
|---|---|---|
| 8GB 未満の GPU | E4B | まず成立させることを優先した方が良い。 |
| 8〜12GB GPU | E4B | 最も手戻りが少なく、日常利用でも安定しやすい。 |
| 16GB GPU | 26B A4B | 初めて大きいサイズの価値が見えやすい帯域。 |
| 24GB GPU | 31B か高品質 26B A4B | ようやく品質優先で選べる。 |
| 16GB Mac | E4B | システム全体の軽さも保ちやすい。 |
| 32GB 以上の Mac | 26B A4B | ローカル品質を上げる意味が出てくる。 |
よくある質問
31B は何 GB から考えるべきですか?
ローカルで無理なく使うなら 24GB 級を基準に考えるのが安全です。運用時の余裕まで見ると、その方が失敗しにくくなります。
26B A4B は 12GB でも使えますか?
理論上は可能な場面もありますが、普段使いとしては無理が出やすいです。12GB 帯なら E4B を安定して回す方が実務的です。
8GB なら何を選べばいいですか?
まずは E4B です。Gemma 4 を試す入口として一番成功率の高い選択です。
1〜2GB 足りないと何が起きますか?
RAM へのオフロードで返答速度がかなり落ちやすくなります。ギリギリの大きいモデルより、ひとつ下のサイズを選ぶ方が快適です。