Cache Hits and Misses — Belgavi.AI Lab

Advertisement

Working set 1 KB

Tiny working set: L1 fast. Mid: L2/L3. Big: RAM — slow.

L1 ~32 KB, ~1 ns. L2 ~512 KB, ~3 ns. L3 ~32 MB, ~10 ns. RAM ~80 ns. Model weights bigger than L3 → every read pays RAM cost.

★ KEY TAKEAWAY

CPU memory hierarchy: L1 (32KB, 1ns) → L2 (512KB, 3ns) → L3 (32MB, 10ns) → RAM (80ns). SLM weights ≫ L3 → every read pays RAM cost.

▶ WHAT TO TRY