CPU Training Memory Calculator

Advertisement

Params 350M Precision Grad checkpoint Seq length

Total RAM = weights + gradients + optimizer + activations.

Per-param: FP32 = 16 bytes (weights+grad+m+v). BF16 mix ≈ 10 bytes. Activations scale with d·L·seq.

★ KEY TAKEAWAY

CPU training memory = weights × ~4 (FP32+AdamW) + activations. 350M fits in 16GB; 1B needs 64GB.

▶ WHAT TO TRY