Adversarial Examples for LLMs

Character-level

Homoglyphs: replace 'a' with Cyrillic 'а'. Visual identical, tokenizer sees different. Filter bypass.

Advertisement

Synonym substitution changes classification. TextAttack framework enumerates. Common defense: adversarial training.

Advertisement

Paraphrase entire input preserving meaning. Model prediction changes. Non-robustness to paraphrase.

Discrete token gradient search. State of art. Discussed in dedicated article.