Llama Guard — Meta&amp;#x27;s Safety Classifier

Taxonomy

13 hazard categories: violence, hate, sexual, criminal, weapons, defamation, etc. Configurable per app.

Advertisement

Run alongside primary LLM. Classify user input + LLM output. Block/redact on hit.

Advertisement

Small model (7B). ~50ms on GPU. Streaming supported via chunked classification.

Fine-tune on domain-specific violations. E.g., financial advice, medical claims, PII schemas.