▶ Transformers Labs

Transformers Labs

Multi-head attention, RoPE, FFN, MoE routing, RMSNorm.

5Interactive labs

100%Single-file HTML

Interactive labs

All 5 labs in this category

Advertisement

Feed-Forward Layer (MLP)

Hidden dimension expansion + activation + projection back.

LayerNorm vs RMSNorm

Both stabilize activations; RMSNorm skips mean centering.

Mixture of Experts Routing

Router picks K experts per token. See activation patterns.

Multi-Head Attention

See how heads specialize on different patterns.

Positional Encoding — Sinusoidal vs RoPE

Two ways to inject position information.