ML-Based Adversarial Prompt Detection

Training data

Positive: known jailbreaks + GCG suffixes + PAIR outputs. Negative: legitimate diverse queries. 10k-100k examples typical.

Advertisement

Fine-tuned small model (DeBERTa, MiniLM, distilled Llama). Fast + accurate. 10-50ms latency.

Advertisement

Inline before LLM. Rejects or flags at threshold. High recall + tunable precision.

Retrain monthly with new attacks. Rapidly evolving threat landscape.