Adversarial Training for LLM Safety

Data collection

Human + automated red team. Public jailbreak databases. Adversarial generation (PAIR, TAP). Continuous stream.

Advertisement

For each attack, correct response = refusal + explanation. Rewards refusal, penalizes compliance.

Advertisement

Too aggressive → overrefusal. Include 'looks-suspicious-but-legitimate' with reward-for-compliance. Balance.

New attacks emerge post-training. Ongoing red team + retraining. No 'done.' Continual security process.