Você está recebendo algumas informações muito boas nos comentários, na minha opinião. Gostaria de saber se alguns fatos básicos sobre a regressão logística ajudariam a tornar essas coisas mais compreensíveis, portanto, com isso em mente, deixe-me declarar algumas coisas. Na regressão logística, os coeficientes estão na escala logística (daí o nome ...). Se você inserisse seus valores covariáveis para uma observação, multiplique-os pelos coeficientes e some-os, obterá um logit .
logit=β0+β1x1+β2x2+...+βkxk
Um logit é um número que não faz sentido intuitivo para ninguém, por isso é muito difícil saber o que fazer com um número parece engraçado (por exemplo, muito alto ou muito baixo). A melhor maneira de entender essas coisas é convertê-las de sua escala original (logits) para uma que você possa entender, especificamente probabilidades. Para fazer isso, você pega seu logit e o exponencia. Isso significa que você pega o número
e (
) e aumenta para o poder do logit. Imagine que seu logit fosse 2:
e 2e≈2.718281828
Isso fornecerá as probabilidades. Você pode converter as probabilidades em uma probabilidade dividindo as probabilidades por um mais as chances:
7.389056e2=7.389056
As pessoas geralmente acham a probabilidade muito mais fácil de lidar.
7.3890561+7.389056=0.880797
Para o seu modelo, imagine que você teve uma observação na qual o valor de todas as suas variáveis é exatamente 0, então todos os seus coeficientes desapareceriam e você ficaria apenas com o seu valor de interceptação. Se exponentiate seu valor, obtemos 0, quando as probabilidades (se fosse -700, as chances seriam , mas eu não posso conseguir o meu computador para me dar um valor para -1060, é muito pequeno dados os limites numéricos do meu software). Convertendo essas probabilidades em probabilidade, ( 0 / ( 1 + 0 )9.8×10−3050/(1+0)), nos dá 0 novamente. Portanto, o que sua saída está dizendo é que seu evento (seja o que for) simplesmente não ocorre quando todas as suas variáveis são iguais a 0. É claro que depende do que estamos falando, mas não acho nada notável demais sobre isso. esta. Uma equação de regressão logística padrão (digamos, sem termo ao quadrado, por exemplo) pressupõe necessariamente que a relação entre uma covariável e a probabilidade de sucesso esteja aumentando monotonicamente ou diminuindo monotonicamente. Isso significa que ele sempre fica maior e maior (ou menor e menor) e, portanto, se você for suficientemente longe em uma direção, chegará a números tão pequenos que meu computador não pode diferenciá-los de zero. Esse é apenas o natureza da besta. Por acaso, para o seu modelo, ir muito longe está indo para onde seus valores covariáveis são iguais a 0.
Quanto ao coeficiente de 0, significa que essa variável não tem efeito, como você sugere. Agora, é bastante razoável que uma variável não tenha efeito; no entanto, você basicamente nunca obterá um coeficiente de exatamente 0. Não sei por que ocorreu neste caso; os comentários oferecem algumas sugestões possíveis. Eu posso oferecer outra, que é que pode não haver variação nessa variável. Por exemplo, se você tivesse uma variável que codificasse sexo, mas apenas mulheres em sua amostra. Não sei se essa é a resposta real (R, por exemplo, retorna NA
nesse caso, mas o software é diferente) - é apenas mais uma sugestão.