(a resposta de hamner é ótima, portanto, basta postar minha resposta no MetaOptimize para garantir a integridade.)
Penso nos algoritmos generativos como um modelo de como os dados são realmente gerados (penso neles como um modelo de e , em vez de , embora eu ache que seja equivalente) e algoritmos discriminativos simplesmente fornecendo divisões de classificação (e não necessariamente de maneira probabilística).P( X| Y)P( Y)P(X, Y)
Compare, por exemplo, modelos de mistura gaussiana e agrupamento k-mean. No primeiro, temos um bom modelo probabilístico de como os pontos são gerados (escolha um componente com alguma probabilidade e depois emita um ponto por amostragem da distribuição gaussiana do componente), mas não há nada que possamos realmente dizer sobre o último.
Observe que algoritmos generativos têm propriedades discriminativas, pois você pode obter depois de ter e (pelo Teorema de Bayes), embora algoritmos discriminativos não tenham realmente propriedades generativas.P( Y|X)P( X|Y)P(Y)
1: Os algoritmos discriminativos permitem classificar pontos, sem fornecer um modelo de como os pontos são realmente gerados. Portanto, estes podem ser:
- algoritmos probabilísticos tentam aprender (por exemplo, regressão logística);P( Y|X)
- ou algoritmos não probabilísticos que tentam aprender os mapeamentos diretamente dos pontos para as classes (por exemplo, perceptron e SVMs simplesmente fornecem um hiperplano separador, mas nenhum modelo para gerar novos pontos).
Portanto, sim, classificadores discriminativos são quaisquer classificadores que não são generativos.
Outra maneira de pensar sobre isso é que algoritmos generativos fazem algum tipo de suposição de estrutura em seu modelo , mas algoritmos discriminativos fazem menos suposições. Por exemplo, Naive Bayes assume independência condicional de seus recursos, enquanto a regressão logística (a "contraparte" discriminativa de Naive Bayes) não.
2: Sim, Naive Bayes é generativo porque captura e . Por exemplo, se soubermos que e , juntamente com as probabilidades de palavras em inglês e francês, agora podemos gerar um novo documento escolhendo primeiro o idioma do documento ( Inglês com probabilidade 0,7, francês com probabilidade 0,3) e, em seguida, gerando palavras de acordo com as probabilidades de palavras do idioma escolhido.P( X|Y)P(Y)P(Y= En gl i s h ) = 0,7P(Y= Fr e n c h ) = 0,3
Sim, acho que você pode tornar a regressão logística generativa dessa maneira, mas é apenas porque você está adicionando algo à regressão logística que ainda não está lá. Ou seja, quando você está executando uma classificação Naive Bayes, está computando diretamente (os termos à direita, e , é o que permite gerar um novo documento); mas quando você está computando em regressão logística, não está computando essas duas coisas, apenas aplicando uma função logística a um produto escalar.P( Y| X) ∝ P( X| Y) P( Y)P( X| Y)P(Y)P( Y|X)
3: Os modelos generativos geralmente superam os modelos discriminativos em conjuntos de dados menores porque suas suposições generativas colocam alguma estrutura em seu modelo que evita o super ajuste . Por exemplo, vamos considerar Naive Bayes vs. Regressão logística. É claro que a suposição de Naive Bayes raramente é satisfeita; portanto, a regressão logística tende a superar a Naive Bayes à medida que o conjunto de dados cresce (uma vez que pode capturar dependências que Naive Bayes não pode). Mas quando você tem apenas um conjunto de dados pequeno, a regressão logística pode pegar padrões espúrios que realmente não existem, então o Naive Bayes atua como uma espécie de regularizador no seu modelo que evita o ajuste excessivo. Há um artigo de Andrew Ng e Michael Jordan sobre classificadores discriminativos versus geradores que fala mais sobre isso.
4: Eu acho que o que isso significa é que modelos generativos podem realmente aprender a estrutura subjacente dos dados se você especificar seu modelo corretamente e o modelo realmente for válido, mas modelos discriminativos poderão superar o desempenho caso suas suposições generativas não sejam satisfeitas (uma vez que algoritmos discriminativos são menos vinculado a uma estrutura específica, e o mundo real é confuso e as suposições raramente são perfeitamente satisfeitas). (Eu provavelmente ignoraria essas citações se elas fossem confusas.)