Digamos que você esteja prevendo o tópico de um documento, considerando suas palavras.
Um modelo generativo descreve a probabilidade de cada tópico e a probabilidade de as palavras receberem o tópico. É assim que se diz que os documentos são realmente "gerados" pelo mundo - um tópico surge de acordo com alguma distribuição, as palavras surgem por causa do tópico, você tem um documento. A classificação de documentos das palavras W no tópico T é uma questão de maximizar a probabilidade conjunta: P (T, W) = P (W | T) P (T)
Um modelo discriminativo opera apenas descrevendo a probabilidade de um tópico receber as palavras. Não diz nada sobre a probabilidade das palavras ou tópicos serem eles mesmos. A tarefa é modelar P (T | W) diretamente e encontrar o T que maximiza isso. Essas abordagens não se importam com P (T) ou P (W) diretamente.