Análise discriminante vs regressão logística


16

Encontrei alguns profissionais da análise discriminante e tenho perguntas sobre eles. Então:

Quando as classes são bem separadas, as estimativas de parâmetros para regressão logística são surpreendentemente instáveis. Coeficientes podem ir para o infinito. LDA não sofre com esse problema.

Se o número de características for pequeno e a distribuição dos preditores X for aproximadamente normal em cada uma das classes, o modelo discriminante linear será novamente mais estável que o modelo de regressão logística.

  1. O que é estabilidade e por que é importante? (Se a regressão logística fornece um bom ajuste que faz seu trabalho, por que devo me preocupar com a estabilidade?)

O LDA é popular quando temos mais de duas classes de resposta, porque também fornece visualizações de baixa dimensão dos dados.

  1. Eu simplesmente não entendo isso. Como o LDA fornece visualizações de baixa dimensão?
  2. Se você pode citar mais prós ou contras, isso seria bom.

3
Você também pode querer ler outras perguntas e respostas sobre este tópico (lda vs logística). Por favor, procure neste site.
ttnphns

Respostas:


13

Quando as classes são bem separadas, as estimativas de parâmetros para regressão logística são surpreendentemente instáveis. Coeficientes podem ir para o infinito. LDA não sofre com esse problema.

Se existem valores covariáveis ​​que podem prever perfeitamente o resultado binário, o algoritmo de regressão logística, ou seja, a pontuação de Fisher, nem converge. Se você estiver usando R ou SAS, receberá um aviso de que probabilidades de zero e uma foram calculadas e que o algoritmo travou. Este é o caso extremo de separação perfeita, mas mesmo que os dados sejam separados em grande parte e não perfeitamente, o estimador de probabilidade máxima pode não existir e, mesmo que exista, as estimativas não são confiáveis. O ajuste resultante não é bom. Existem muitos tópicos que tratam do problema da separação neste site, portanto, dê uma olhada.

Por outro lado, não se costuma encontrar problemas de estimativa com os discriminantes de Fisher. Ainda pode acontecer se a matriz de covariância entre ou dentro for singular, mas esse é um caso bastante raro. De fato, se houver uma separação completa ou quase completa, tanto melhor, porque é mais provável que o discriminante seja bem-sucedido.

Também vale ressaltar que, contrariamente à crença popular, a LDA não se baseia em nenhuma premissa de distribuição. Exigimos apenas implicitamente a igualdade das matrizes de covariância populacional, pois um estimador agrupado é usado para a matriz de covariância interna. Sob as premissas adicionais de normalidade, probabilidades anteriores iguais e custos de classificação incorreta, a LDA é ótima no sentido de minimizar a probabilidade de classificação incorreta.

Como o LDA fornece visualizações de baixa dimensão?

É mais fácil ver isso no caso de duas populações e duas variáveis. Aqui está uma representação pictórica de como a LDA funciona nesse caso. Lembre-se de que estamos procurando combinações lineares das variáveis ​​que maximizam a separabilidade. insira a descrição da imagem aqui

Portanto, os dados são projetados no vetor cuja direção alcança melhor essa separação. Como descobrimos que o vetor é um problema interessante da álgebra linear, basicamente maximizamos um quociente de Rayleigh, mas vamos deixar isso de lado por enquanto. Se os dados são projetados nesse vetor, a dimensão é reduzida de dois para um.

O caso geral de mais de duas populações e variáveis ​​é tratado da mesma forma. Se a dimensão for grande, combinações mais lineares serão usadas para reduzi-la; nesse caso, os dados são projetados em planos ou hiperplanos. Há um limite para quantas combinações lineares é possível encontrar, é claro, e esse limite resulta da dimensão original dos dados. Se denotarmos o número de variáveis ​​preditoras por e o número de populações por , verifica-se que o número é no máximo .g min ( g - 1 , p )pg min(g-1 1,p)

Se você pode citar mais prós ou contras, isso seria bom.

A representação em baixa dimensão não apresenta desvantagens, no entanto, a mais importante é, obviamente, a perda de informações. Isso é menos problemático quando os dados são linearmente separáveis, mas se não forem, a perda de informações pode ser substancial e o classificador terá um desempenho ruim.

Também pode haver casos em que a igualdade das matrizes de covariância pode não ser uma suposição sustentável. Você pode empregar um teste para garantir, mas esses testes são muito sensíveis a desvios da normalidade; portanto, você precisa fazer essa suposição adicional e também testá-la. Se for descoberto que as populações são normais com matrizes de covariância desiguais, uma regra de classificação quadrática pode ser usada (QDA), mas acho que essa é uma regra bastante embaraçosa, sem mencionar que é contra-intuitivo em altas dimensões.

No geral, a principal vantagem do LDA é a existência de uma solução explícita e sua conveniência computacional, o que não é o caso de técnicas de classificação mais avançadas, como SVM ou redes neurais. O preço que pagamos é o conjunto de suposições que o acompanham, a saber, separabilidade linear e igualdade de matrizes de covariância.

Espero que isto ajude.

EDIT : Suspeito que minha alegação de que a LDA nos casos específicos que mencionei não exija nenhuma suposição distributiva que não seja a igualdade das matrizes de covariância me custou um voto negativo. Isso não é menos verdade, no entanto, deixe-me ser mais específico.

Se deixarmos denotar as médias da primeira e da segunda população e denotar a matriz de covariância combinada, O discriminante de Fisher resolve o problemaSagrupadox¯i, i=1,2Sagrupado

maxuma(umaTx¯1 1-umaTx¯2)2umaTSagrupadouma=maxuma(umaTd)2umaTSagrupadouma

A solução desse problema (até uma constante) pode ser mostrada como

uma=Sagrupado-1 1d=Sagrupado-1 1(x¯1 1-x¯2)

Isso é equivalente ao LDA que você obtém sob a premissa de normalidade, matrizes de covariância iguais, custos de classificação incorreta e probabilidades anteriores, certo? Bem, sim, exceto agora que não assumimos a normalidade.

Não há nada que o impeça de usar o discriminante acima em todas as configurações, mesmo que as matrizes de covariância não sejam realmente iguais. Pode não ser o ideal no sentido do custo esperado da classificação incorreta (ECM), mas esse aprendizado é supervisionado, para que você sempre possa avaliar seu desempenho, usando, por exemplo, o procedimento de retenção.

Referências

Bishop, Christopher M. Redes neurais para reconhecimento de padrões. Oxford University Press, 1995.

Johnson, Richard Arnold e Dean W. Wichern. Análise estatística multivariada aplicada. Vol. 4. Englewood Cliffs, NJ: Prentice hall, 1992.


11
(Eu não sou o usuário com voto negativo). Para tentar conciliar sua resposta com a de Frank Harell, parece-me que ainda é necessário supor que todas as variáveis ​​sejam contínuas (caso contrário, acho que o máximo do quociente de Rayleigh não seria único).
user603

11
@ user603 Não vi em nenhum lugar essa condição. A solução é determinada apenas até uma constante de qualquer maneira.
JohnK

John, imagine que existem apenas 2 classes (e, portanto, apenas uma linha discriminante) com distribuições idênticas, simétricas (elipsoidais) e probabilidades anteriores iguais. Na verdade, não precisamos assumir uma distribuição especificamente normal, porque não precisamos de nenhum pdf para atribuir um caso a uma classe. Em configurações mais complexas (como 3 ou mais classes), precisamos usar alguns pdf, e geralmente é normal.
ttnphns

11
@ttnphns Entendo o seu ponto, mas isso não faz parte das suposições que você usa para derivar o discriminante de Fisher, mesmo em casos complexos. Nessas configurações, você trabalha com os valores próprios / vetores próprios da matriz que é a matriz de covariância interna e no meio. Em seguida, você pode atribuir às classes usando a distribuição normal habitual, mas também pode usar outra coisa, se desejar. Isso não invalida a abordagem. W-1 1BWB
JohnK

11
John, seu último comentário é sobre você e eu concordamos.
ttnphns

10

A LDA faz suposições distributivas severas (normalidade multivariada de todos os preditores) ao contrário da regressão logística. Tente obter probabilidades posteriores de participação na classe com base no sexo dos sujeitos e você verá o que quero dizer - as probabilidades não serão precisas.

A instabilidade da regressão logística quando um conjunto de valores preditores gera uma probabilidade de 0 ou 1 de que seja mais ou menos uma ilusão. As iterações de Newton-Raphson convergirão para s próximos o suficiente para (por exemplo, ), de modo que as probabilidades previstas sejam essencialmente 0 ou 1 quando deveriam. O único problema que isso causa é o efeito Hauck-Donner nas estatísticas de Wald. A solução é simples: não use testes Wald neste caso; use testes de razão de verossimilhança, que se comportam muito bem mesmo com estimativas infinitas. Para intervalos de confiança, use intervalos de confiança da probabilidade do perfil, se houver uma separação completa.Y=1 1β±±30

Veja isso para mais informações.

Observe que, se a normalidade multivariável se mantém, pelo teorema de Bayes, as premissas da regressão logística se mantêm. O contrário não é verdade.

A normalidade (ou pelo menos a simetria) quase deve valer para variações e covariâncias para "fazer o trabalho". Preditores normalmente distribuídos não multivariados prejudicam a fase de extração discriminante.


11
A meu ver, a normalidade é necessária especificamente no estágio de classificação (predição de classe) da LDA. Não é necessário no estágio de extração de discriminantes (redução de dimensionalidade), que, no entanto, ainda assume homogeneidade de variância-covariância. (Curiosamente esta última hipótese pode ser um pouco divulgado na classificação: você pode usar separadas . Covariâncias intra-classe para os discriminantes lá)
ttnphns

3
tt

2
t

2
Sim O SD faz várias suposições e não é robusto. Em menor grau, a média faz com que algumas suposições sejam significativas. Menos quadrados, PCA e LDA efetivamente fazem mais suposições distributivas do que muitas pessoas pensam.
Frank Harrell

2
Não estou convencido por esse raciocínio e ainda acredito que o voto negativo foi injusto, mas não tenho autoridade no assunto. As referências que eu forneci lhe dirão o mesmo.
JohnK

0

Quando as classes são bem separadas, as estimativas de parâmetros para regressão logística são surpreendentemente instáveis. Coeficientes podem ir para o infinito. LDA não sofre com esse problema.

Isenção de responsabilidade: O que se segue aqui carece de rigor matemático completamente.

Para ajustar bem uma função (não linear), você precisa de observações em todas as regiões da função em que "sua forma muda". A regressão logística ajusta uma função sigmóide aos dados:

insira a descrição da imagem aqui

No caso de classes bem separadas, todas as observações recairão nos dois "extremos", onde o sigmóide se aproxima de suas assíntotas (0 e 1). Como todos os sigmóides "parecem iguais" nessas regiões, por assim dizer, não admira que o algoritmo de ajuste inadequado tenha dificuldades para encontrar "o caminho certo".

Vamos dar uma olhada em dois exemplos (espero instrutivos) calculados com a glm()função de R.

Caso 1: Os dois grupos se sobrepõem até certo ponto:

insira a descrição da imagem aqui

e as observações se distribuem muito bem em torno do ponto de inflexão do sigmóide ajustado:

insira a descrição da imagem aqui

Estes são os parâmetros ajustados com bons erros padrão baixos:

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -17.21374    4.07741  -4.222 2.42e-05 ***
wgt           0.35111    0.08419   4.171 3.04e-05 ***

e o desvio também parece bom:

    Null deviance: 138.629  on 99  degrees of freedom
Residual deviance:  30.213  on 98  degrees of freedom

Caso 2: Os dois grupos estão bem separados:

insira a descrição da imagem aqui

e todas as observações estão praticamente nas assíntotas. A glm()função tentou o melhor possível para ajustar-se a algo, mas reclamou das probabilidades numericamente 0 ou 1, porque simplesmente não há observações disponíveis para "acertar a forma do sigmóide" em torno de seu ponto de inflexão:

insira a descrição da imagem aqui

Você pode diagnosticar o problema observando que os erros padrão dos parâmetros estimados passam pelo telhado:

Coefficients:
              Estimate Std. Error z value Pr(>|z|)
(Intercept)   -232.638 421264.847  -0.001        1
wgt              5.065   9167.439   0.001        1

e, ao mesmo tempo, o desvio parece suspeitamente bom (porque as observações se encaixam bem nas assíntotas):

    Null deviance: 1.3863e+02  on 99  degrees of freedom
Residual deviance: 4.2497e-10  on 98  degrees of freedom

Pelo menos intuitivamente, deve ficar claro a partir dessas considerações por que "as estimativas de parâmetros para a regressão logística são surpreendentemente instáveis".


Veja a resposta de @Frank Harrell que claramente não concorda com você! E estudar as suas ligações e referências ...
b Kjetil Halvorsen

@kjetilbhalvorsen Meu ponto principal é uma ilustração intuitiva do ajuste "surpreendentemente instável". Eu removi a última frase referente ao LDA.
Laryx Decidua
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.