RNN, LSTM, GRU — Sequence Modeling Before Transformers

Vanilla RNN

h_t = tanh(W·h_{t-1} + U·x_t). Gradient vanishes/explodes over long sequences.

Advertisement

Cell state + input/forget/output gates. Additive updates → gradient survives. Powered 2015-2018 NLP.

Advertisement

Simplified: reset + update gates. Fewer parameters than LSTM, similar performance often.

Combine forward + backward pass. Requires full sequence. Used in encoders (BERT predecessor).