Podemos usar variável independente categórica na análise discriminante?

15

Na análise discriminante, a variável dependente é categórica, mas posso usar uma variável categórica (por exemplo, status residencial: rural, urbano) juntamente com alguma outra variável contínua como variável independente na análise discriminante linear?

— kuwoli
fonte

Pergunta semelhante

— ttnphns

14

A análise discriminante assume uma distribuição normal multivariada, porque o que geralmente consideramos preditores é realmente uma variável dependente multivariada, e a variável de agrupamento é considerada preditora. Isso significa que variáveis categóricas que devem ser tratadas como preditores no sentido que você deseja não são bem tratadas. Essa é uma das razões pelas quais muitos, inclusive eu, consideramos a análise discriminante tornada obsoleta pela regressão logística. A regressão logística não faz nenhuma suposição distributiva de qualquer tipo, no lado esquerdo ou no lado direito do modelo. A regressão logística é um modelo de probabilidade direta e não exige que se use a regra de Bayes para converter resultados em probabilidades, assim como a análise discriminante.

— Frank Harrell
fonte

Obrigado, Sr. Frank Harrell, pela sua resposta. Na verdade, eu quero comparar os resultados da análise discriminatória e da regressão logística (modelo logit) usando o mesmo conjunto de variáveis. Então, para esse propósito, se eu tiver que usar as variáveis categóricas na análise discriminante como variável independente, então existe alguma maneira?

— kuwoli

6

A resposta curta é mais do que sim.

Uma nota preliminar. É difícil dizer se as variáveis que produzem funções discriminantes por si mesmas devem ser chamadas de "independentes" ou "dependentes". O LDA é basicamente um caso específico de análise de correlação canônica e, portanto, é ambidirecional. Pode ser visto como MANOVA (com a variável de classe como fator independente) ou, quando a classe é dicotômica, como uma regressão linear da classe como variável dependente. Portanto, não é muito legal sempre opor-se à LDA com regressões unidirecionais, como a logística.

O LDA assume que as variáveis (aquelas que você chamou de "independentes") vêm da distribuição normal multivariada, portanto - todas elas contínuas. Essa suposição é importante para (1) o estágio de classificação da LDA e (2) a significância do teste dos discriminantes produzidos no estágio de extração. A extração dos próprios discriminantes não precisa da suposição.

No entanto, o LDA é bastante robusto à violação da suposição, que às vezes é vista como uma garantia para fazê-lo em dados binários . De fato, algumas pessoas fazem isso. As correlações canônicas (das quais a LDA é um caso específico) podem ser feitas onde os dois conjuntos consistem em variáveis binárias binárias ou até falsas. Mais uma vez, não há problema com a extração das funções latentes; os problemas com esse aplicativo potencialmente surgem quando valores-p ou objetos de classificação são chamados.

A partir de variáveis binárias / ordinais, pode-se calcular correlações tetracóricas / policóricas e submetê-las ao LDA (se o programa permitir inserir matrizes de correlação no lugar dos dados); mas o cálculo de pontuações discriminantes no nível do caso será problemático.

Uma abordagem mais flexível seria transformar variáveis categóricas (ordinais, nominais) em contínuas através de escala / quantificação ideal . Análise de correlação canônica não linear (OVERALS). Ele fará isso sob a tarefa de maximizar correlações canônicas entre os dois lados (a variável de classe e os "preditores" categóricos). Você pode tentar o LDA com as variáveis transformadas.

A regressão logística (multinomial ou binária) pode ser outra alternativa ao LDA.

— ttnphns
fonte

Isso é muito mais envolvido do que apenas usar um modelo destinado à situação (regressão logística). A análise discriminante não é tão robusta quanto alguns pensam. É fácil mostrar, com um único preditor categórico que é binário, que as probabilidades posteriores da não são muito precisas (por exemplo, prever a probabilidade de um evento dado o sexo de um sujeito).

— Frank Harrell