VRAM Calculator for AI Models

Calculate exactly how much GPU memory (VRAM) you need to run any AI model locally. Supports 280+ models including LLaMA 3, DeepSeek R1, Mistral, Qwen 2.5, and Phi-4 at FP16, Q8, Q4, and other quantization levels.

Quick Reference: Common VRAM Requirements

7B models (LLaMA 3 8B, Mistral 7B): ~4-5GB at Q4, ~14GB at FP16

13-14B models (Phi-4, Qwen 2.5 14B): ~8-9GB at Q4, ~28GB at FP16

70B models (LLaMA 3 70B, Qwen 2.5 72B): ~40GB at Q4, ~140GB at FP16

Rule of thumb: Multiply parameters (B) by 0.6 for Q4 VRAM, by 2 for FP16 VRAM.

VRAM Calculator

Calculate how much GPU memory you need to run AI models locally. Supports all quantization levels.

Model Size (Billion Parameters)

Quantization Level

FP32 (Full Precision)

Maximum accuracy, 4 bytes per parameter

4B/param

FP16 / BF16

Standard training precision, 2 bytes per parameter

2B/param

Q8 (8-bit)

Good quality, 1 byte per parameter

1B/param

Q6_K (6-bit)

Near-lossless quality for most models

0.75B/param

Q5_K_M (5-bit)

Recommended balance of quality and size

0.625B/param

Q4_K_M (4-bit)

Popular for consumer GPUs, slight quality loss

0.5B/param

Q3_K_M (3-bit)

Aggressive compression, noticeable quality loss

0.375B/param

Q2_K (2-bit)

Maximum compression, significant quality loss

0.25B/param

Context Length (tokens)

VRAM Required

3.6 GB

Weights: 3.3 GB

KV Cache: 0.0 GB

Overhead: 0.3 GB

32GB

3.6 GB

Weights3.3GB

KV Cache0.0GB

Overhead0.3GB

Fits 32GB

11% used

Model weights (7B × 0.5B)3.3 GB

KV Cache (4,096 tokens)0.02 GB

Runtime overhead (~10%)0.3 GB

Total3.6 GB

Recommended GPU

RTX 3060 12GB

12GB VRAM — 30% utilized, 8.4GB headroom

BEST FIT

Buy on Amazon Rent in Cloud

Compatible GPUs

RTX 509032GB

11% utilized

RTX 409024GB

15% utilized

RTX 4080 SUPER16GB

23% utilized

RTX 4070 Ti SUPER16GB

23% utilized

RTX 309024GB

15% utilized

RTX 3060 12GBPICK12GB

30% utilized

Mac Mini M4 Pro24GB

15% utilized

Mac Mini M4 Pro 48GB48GB

8% utilized

Mac Studio M4 Max 128GB128GB

3% utilized

Mac Studio M4 Ultra 192GB192GB

2% utilized

A100 40GB40GB

9% utilized

A100 80GB80GB

5% utilized

H100 80GB80GB

5% utilized

H200 141GB141GB

3% utilized

VRAM estimates are approximate. Actual usage varies by model architecture, batch size, and runtime.

For MoE models (Mixtral, DeepSeek), only active parameters are loaded — actual VRAM may be lower than total parameter count suggests.

Get price drop alerts for these GPUs$9/mo →

Browse all 498 GPUs Compare cloud GPU rental prices Best GPU buying guides

HardwareHQ

VRAM Calculator for AI Models

Export PDFPro

Quick Reference: Common VRAM Requirements

7B models (LLaMA 3 8B, Mistral 7B): ~4-5GB at Q4, ~14GB at FP16

13-14B models (Phi-4, Qwen 2.5 14B): ~8-9GB at Q4, ~28GB at FP16

70B models (LLaMA 3 70B, Qwen 2.5 72B): ~40GB at Q4, ~140GB at FP16

Rule of thumb: Multiply parameters (B) by 0.6 for Q4 VRAM, by 2 for FP16 VRAM.

VRAM Calculator

Calculate how much GPU memory you need to run AI models locally. Supports all quantization levels.

Model Size (Billion Parameters)

Quantization Level

FP32 (Full Precision)

Maximum accuracy, 4 bytes per parameter

4B/param

FP16 / BF16

Standard training precision, 2 bytes per parameter

2B/param

Q8 (8-bit)

Good quality, 1 byte per parameter

1B/param

Q6_K (6-bit)

Near-lossless quality for most models

0.75B/param

Q5_K_M (5-bit)

Recommended balance of quality and size

0.625B/param

Q4_K_M (4-bit)

Popular for consumer GPUs, slight quality loss

0.5B/param

Q3_K_M (3-bit)

Aggressive compression, noticeable quality loss

0.375B/param

Q2_K (2-bit)

Maximum compression, significant quality loss

0.25B/param

Context Length (tokens)

VRAM Required

3.6 GB

Weights: 3.3 GB

KV Cache: 0.0 GB

Overhead: 0.3 GB

32GB

3.6 GB

Weights3.3GB

KV Cache0.0GB

Overhead0.3GB

Fits 32GB

11% used

Model weights (7B × 0.5B)3.3 GB

KV Cache (4,096 tokens)0.02 GB

Runtime overhead (~10%)0.3 GB

Total3.6 GB

Recommended GPU

RTX 3060 12GB

12GB VRAM — 30% utilized, 8.4GB headroom

BEST FIT

Buy on Amazon Rent in Cloud

Compatible GPUs

RTX 509032GB

11% utilized

RTX 409024GB

15% utilized

RTX 4080 SUPER16GB

23% utilized

RTX 4070 Ti SUPER16GB

23% utilized

RTX 309024GB

15% utilized

RTX 3060 12GBPICK12GB

30% utilized

Mac Mini M4 Pro24GB

15% utilized

Mac Mini M4 Pro 48GB48GB

8% utilized

Mac Studio M4 Max 128GB128GB

3% utilized

Mac Studio M4 Ultra 192GB192GB

2% utilized

A100 40GB40GB

9% utilized

A100 80GB80GB

5% utilized

H100 80GB80GB

5% utilized

H200 141GB141GB

3% utilized

VRAM estimates are approximate. Actual usage varies by model architecture, batch size, and runtime.

For MoE models (Mixtral, DeepSeek), only active parameters are loaded — actual VRAM may be lower than total parameter count suggests.

Get price drop alerts for these GPUs$9/mo →

Browse all 498 GPUs Compare cloud GPU rental prices Best GPU buying guides

More tools

Cloud GPU Pricing

Compare pricing across 24+ providers

GPU Comparison

Side-by-side GPU specs and benchmarks

LLM Hardware Requirements

VRAM needs for every major LLM

Inference Calculator

Estimate tokens/sec on your hardware