Naive Bayes — Classic Text Classifier

Formula

P(c|x) ∝ P(c) · ∏ P(x_i | c). Independence assumption 'naive' but often good enough.

Advertisement

Word counts. P(word | class) = (count(word, class) + α) / (total_words(class) + α·V). Laplace smoothing.

Advertisement

Continuous features. Assume P(x_i | c) ~ Gaussian per class. Fit mean + variance per feature.

Train: O(N · d). Predict: O(K · d). Blazing fast. Scales to millions of documents.