Gemma 4 VRAM必要量ガイド：自分のGPUやMacでどこまで動くか先に判断する

最短答え

迷ったら、まず gemma4:e4b を基準に考えてください。6〜8GB 級や 16GB 前後の Mac でも試しやすく、ローカル実行の流れを確認するには十分です。いきなり 26B や 31B に行くと、ダウンロード時間、メモリ不足、GPU 未使用の切り分けが一気に重なって判断が遅れます。

失敗しにくい順番: まず「無理なく動くサイズ」を選ぶ → 実際に返答速度を確認する → 足りなければ上のサイズへ進む。この順番の方が、最初から最大サイズを狙うより手戻りが少なくなります。

モデル別 VRAM 早見表

以下はローカル利用時の目安です。実際には KV キャッシュや実行オーバーヘッド分の余裕も必要です。

モデル	Q2	Q4（標準）	Q5	FP16	使い分けの目安
E2B	約0.8 GB	約1.5 GB	約1.8 GB	約4 GB	かなり軽い環境や CPU 寄りの確認向け。
E4B	約2 GB	約3.5 GB	約4.2 GB	約8 GB	最初のローカル実行確認に一番向いています。
26B A4B	約9 GB	約14 GB	約17 GB	約52 GB	品質を上げたい人向けだが、ハード要件は急に重くなります。
31B	約12 GB	約20 GB	約24 GB	約62 GB	24GB 級 GPU で初めて気持ちよく扱える上位帯です。

長い会話や大きな文書では、さらに 1〜4GB 前後の余裕を見ておくと安全です。

サイズごとの見方

E4B

E4B は「まず 1 回ちゃんと動かしたい」人向けの出発点です。速度と必要メモリのバランスが良く、Gemma 4 が自分の用途に合うかを試すには十分な品質があります。

26B A4B

26B A4B は、E4B では物足りないと感じたあとに検討するサイズです。ギリギリで押し込むより、余裕のある 16GB 級以上で使った方が「上げた価値」が見えやすくなります。

31B

31B はローカル品質を優先する人向けです。24GB 級が見えていない段階で選ぶと、動作そのものよりメモリ圧迫が主役になりやすいです。

GPU 別に見るとどうなるか

手元の GPU から逆引きしたい人向けの早見表です。ここで「厳しい」と感じるなら、ひとつ下のサイズから始める方が結果的に早く前に進めます。

GPU	VRAM	E4B	26B A4B	31B
GTX 1060 / RX 580	6 GB	Q4 で動作	不可	不可
RTX 2060 / RX 5700	6〜8 GB	快適	不可	不可
RTX 3060 Ti / RTX 4060	8 GB	快適	不可	不可
RTX 3080 10GB	10 GB	快適	Q2 のみ	不可
RTX 3060 / RTX 4070	12 GB	快適	Q2 だと割に合いにくい	不可
RTX 4070 Ti Super / RTX 4080	16 GB	快適	Q4 で現実的	Q2 のみ
RTX 3090 / RTX 4090	24 GB	快適	Q5 でも余裕あり	Q4 で現実的
RTX 6000 Ada / A6000	48 GB	快適	FP16 も視野	Q5 でも余裕あり

質問が多い 3080 の結論: 10GB でも 12GB でも、Gemma 4 なら E4B を気持ちよく使うカードと考える方が実務的です。大きいサイズを無理に詰めるより、E4B を安定して回す方が満足度は高くなります。

Apple Silicon の統合メモリ

Mac では RAM と VRAM が同じプールです。つまり、見かけ上の GPU メモリではなく「OS に取られたあとで AI にどれだけ残るか」で考える方が正確です。

Mac 構成	AI に回せる目安	最初の候補
8 GB	約3〜4 GB	E4B
16 GB	約10〜12 GB	E4B を基準に、用途次第で 26B A4B も検討
18〜36 GB	約12〜30 GB	26B A4B が現実的
64 GB	約58 GB	31B も視野
96〜192 GB	かなり余裕あり	31B を妥協なく使いやすい

Mac で失敗しやすいのは「理論上載る」ことと「普段使いとして快適」なことを混同する点です。ギリギリ載る構成より、返答速度とシステム全体の軽さが保てる構成を選ぶ方が後悔しません。

量子化の考え方

量子化は、大きいモデルを少ないメモリで動かすための現実的な手段です。ただし、サイズだけ見て無理に上を選ぶと、品質の落ち方が気になることがあります。

量子化	品質の見方	使いどころ
FP16	基準	十分なメモリがある環境向け。
Q5	かなり良い	品質とサイズの両立を狙うとき。
Q4	標準的で扱いやすい	幅広いローカル用途の基準。
Q3	落ち込みが見えやすい	かなり制約が厳しいときだけ。
Q2	最終手段	どうしても入らないときの妥協案。

判断ルール

状況	まず選ぶもの	理由
8GB 未満の GPU	E4B	まず成立させることを優先した方が良い。
8〜12GB GPU	E4B	最も手戻りが少なく、日常利用でも安定しやすい。
16GB GPU	26B A4B	初めて大きいサイズの価値が見えやすい帯域。
24GB GPU	31B か高品質 26B A4B	ようやく品質優先で選べる。
16GB Mac	E4B	システム全体の軽さも保ちやすい。
32GB 以上の Mac	26B A4B	ローカル品質を上げる意味が出てくる。

よくある質問

31B は何 GB から考えるべきですか？

ローカルで無理なく使うなら 24GB 級を基準に考えるのが安全です。運用時の余裕まで見ると、その方が失敗しにくくなります。

26B A4B は 12GB でも使えますか？

理論上は可能な場面もありますが、普段使いとしては無理が出やすいです。12GB 帯なら E4B を安定して回す方が実務的です。

8GB なら何を選べばいいですか？

まずは E4B です。Gemma 4 を試す入口として一番成功率の高い選択です。

1〜2GB 足りないと何が起きますか？

RAM へのオフロードで返答速度がかなり落ちやすくなります。ギリギリの大きいモデルより、ひとつ下のサイズを選ぶ方が快適です。

Gemma 4 を入れる前に、自分の GPU や Mac でどのサイズまで無理なく動くかを先に決める

最短答え

モデル別 VRAM 早見表

サイズごとの見方

E4B

26B A4B

31B

GPU 別に見るとどうなるか

Apple Silicon の統合メモリ

量子化の考え方

判断ルール

よくある質問

31B は何 GB から考えるべきですか？

26B A4B は 12GB でも使えますか？

8GB なら何を選べばいいですか？

1〜2GB 足りないと何が起きますか？

関連ガイド

Gemma 4 を入れる前に、自分の GPU や Mac でどのサイズまで無理なく動くかを先に決める

最短答え

モデル別 VRAM 早見表

サイズごとの見方

E4B

26B A4B

31B

GPU 別に見るとどうなるか

Apple Silicon の統合メモリ

量子化の考え方

判断ルール

よくある質問

31B は何 GB から考えるべきですか？

26B A4B は 12GB でも使えますか？

8GB なら何を選べばいいですか？

1〜2GB 足りないと何が起きますか？

関連ガイド

Gemma 4 ローカル実行ガイド

Gemma 4 vs Qwen3

VRAM Requirements in English