Q4_K Block Layout — Belgavi.AI Lab

Advertisement

256 weights → 8 sub-groups × 32 weights + 8 fp16 scales = 144 bytes.

Per-sub-group scales capture local variation. Cheap metadata for big quality gain over per-tensor.

★ KEY TAKEAWAY

Q4_K packs 256 weights into ~144 bytes (4.5 bits/weight) using per-32 sub-group scaling. Block-wise quant captures local variation cheaply.

▶ WHAT TO TRY