Regressão logística com variáveis ​​binárias dependentes e independentes


14

É apropriado fazer uma regressão logística em que as variáveis ​​dependentes e independentes sejam binárias? por exemplo, a variável dependente é 0 e 1 e os preditores são variáveis ​​codificadas por contraste -1 e 1?

Respostas:


6

Não há razão para não fazer isso, mas dois pensamentos de advertência:

  1. Mantenha um controle cuidadoso durante a análise de qual é qual. Em grandes projetos, pode ser fácil se perder e produzir resultados errados.

  2. Se você optar por relatar estimativas de regressão, em vez de razões de chances, deixe seu esquema de codificação claro em seu relatório , para que os leitores não produzam ORs imprecisos por si próprios, assumindo que ambos foram codificados 0,1.

Pode parecer básico, mas já vi os dois problemas chegarem a artigos publicados.


Portanto, também seria apropriado separar um arquivo de dados em 6 casos separados e executar comparações individuais dentro de cada conjunto de dados com preditores codificados por contraste?
upabove

Sinceramente, não sei o que você está pedindo neste segundo momento. Você pode clarificar o que espera realizar?
Fomite 23/08/11

Eu tenho um conjunto de dados com 3 entre e 4 nas condições de assunto. Gostaria de testar todos os efeitos, mas uma única regressão com todas as interações perde muitas informações das quais estou interessado. Em vez disso, dividiria os dados por condição em conjuntos de dados separados e executaria regressões logísticas focadas em cada conjunto de dados com contraste códigos que codificam para as diferenças que eu estou interessado.
upabove

para obter mais informações sobre como codificar os códigos de contraste, consulte aqui: stats.stackexchange.com/questions/14546/…
upabove

11

Para clareza: o termo "binário" geralmente é reservado apenas para codificação 1 vs 0. Uma palavra mais geral adequada para qualquer codificação de 2 valores é "dicotômica". É claro que os preditores dicotômicos são bem-vindos à regressão logística, como a regressão linear, e, por terem apenas 2 valores, não faz diferença se os inserimos como fatores ou como covariáveis.


5

Normalmente, ajuda na interpretação se você codificar seus preditores de 0 a 1, mas além disso (e observando que não é necessário), não há nada de errado nisso. Existem outras abordagens (baseadas em tabelas de contingência), mas se bem me lembro, elas acabam sendo equivalentes a (alguma forma de) regressão logística.

Em resumo: não vejo razão para não fazer isso.


obrigado! E se eu tiver três preditores codificados por contraste e codificá-los todos 0-1, eles não serão ortogonais. Por exemplo, eu tenho 4 categorias e meus três códigos são L1: 1, -1,0,0 L2: 0,1, -1,0, L3: 0,0,1, -1. isso é um problema?
upabove

Seu exemplo de matriz L (L1, L2, L3) são os contrastes repetidos pelos quais cada categoria é comparada à categoria a seguir. Nem esses preditores de contraste são ortogonais nem binários (codificados como 0-1). Na verdade, seus valores são 0,75 vs -.25 (1º variável), 0,5 vs -.5 (2ª variável), 0,25 vs -.75 (3º variável)
ttnphns

3

Além disso, se você tiver mais de dois preditores, é mais provável que haja um problema de multicolinearidade, mesmo para regressão logística ou múltipla. No entanto, não há mal em usar a regressão logística com todas as variáveis ​​binárias (isto é, codificadas (0,1)).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.