RAG — Retrieval-Augmented Generation Basics

Pipeline

Ingest → chunk → embed → store in vector DB. Query → embed → similarity search → top-K → prompt with context → generate.

Advertisement

Trade-off: small chunks (150-300 tokens) precise but lose context. Large (500-1000) rich but noisy. Overlapping windows help.

Advertisement

text-embedding-3-small (OpenAI), Voyage AI, Cohere embed. Multilingual variants. BAAI/bge open-source.

Retrieve top-50, rerank via cross-encoder (Cohere Rerank, BGE reranker). Feed top-5 after rerank. Big quality gain.