O que você fez é regressão logística . Isso pode ser feito basicamente em qualquer software estatístico, e a saída será semelhante (pelo menos no conteúdo, embora a apresentação possa ser diferente). Há um guia para a regressão logística com R no excelente site de ajuda de estatísticas da UCLA. Se você não está familiarizado com isso, minha resposta aqui: a diferença entre os modelos logit e probit , pode ajudá-lo a entender o que é LR (embora esteja escrito em um contexto diferente).
Você parece ter dois modelos apresentados, vou me concentrar principalmente no modelo superior. Além disso, parece ter havido um erro ao copiar e colar o modelo ou a saída, então trocarei leaves.presence
com Area
a saída para torná-la consistente com o modelo. Aqui está o modelo ao qual estou me referindo (observe que eu adicionei (link="logit")
, o que está implícito em family=binomial
; veja ? Glm e ? Family ):
glm(formula = leaves.presence ~ Area, family = binomial(link="logit"), data = n)
Vamos examinar esta saída (observe que eu mudei o nome da variável na segunda linha abaixo Coefficients
):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
Assim como existem resíduos na regressão linear (OLS), também pode haver resíduos na regressão logística e em outros modelos lineares generalizados. Eles são mais complicados quando a variável de resposta não é contínua, no entanto. Os GLiMs podem ter cinco tipos diferentes de resíduos, mas o que aparece como padrão são os resíduos de desvio. ( Desvios e resíduos de desvios são mais avançados, por isso vou ser breve aqui; se essa discussão for um pouco difícil de seguir, não me preocuparia muito, você pode pular):
Deviance Residuals:
Min 1Q Median 3Q Max
-1.213 -1.044 -1.023 1.312 1.344
Para cada ponto de dados usado no seu modelo, o desvio associado a esse ponto é calculado. Tendo feito isso para cada ponto, você tem um conjunto desses resíduos, e a saída acima é simplesmente uma descrição não paramétrica de sua distribuição.
A seguir, vemos as informações sobre as covariáveis, que são as pessoas em geral interessadas principalmente:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 ***
Area 0.0008166 0.0002472 3.303 0.000956 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Area
Estimate
leaves.presence
Area
leaves.presence
Area
0 0.) Na próxima coluna, vemos o erro padrão associado a essas estimativas. Ou seja, eles são uma estimativa de quanto, em média, essas estimativas se movimentariam se o estudo fosse repetido de forma idêntica, mas com novos dados, repetidamente. (Se você não está familiarizado com a idéia de um erro padrão, pode ser útil ler minha resposta aqui: como interpretar erros padrão de coeficiente em regressão linear .) Se dividirmos a estimativa pelo erro padrão, obtenha um quociente que normalmente é distribuído com amostras grandes o suficiente. Este valor está listado em z value
. Abaixo Pr(>|z|)
estão listados os valores p bicaudaisque correspondem aos valores z em uma distribuição normal padrão. Por fim, existem as estrelas de significância tradicionais (e observe a chave abaixo da tabela de coeficientes).
A Dispersion
linha é impressa por padrão com GLiMs, mas não adiciona muita informação aqui (é mais importante nos modelos de contagem, por exemplo). Nós podemos ignorar isso.
Por fim, obtemos informações sobre o modelo e sua qualidade de ajuste:
Null deviance: 16662 on 12237 degrees of freedom
Residual deviance: 16651 on 12236 degrees of freedom
(314 observations deleted due to missingness)
AIC: 16655
Number of Fisher Scoring iterations: 4
A linha sobre missingness
muitas vezes está faltando. Ele aparece aqui porque você tinha 314 observações para a qual quer leaves.presence
, Area
ou ambos estavam faltando. Essas observações parciais não foram usadas no ajuste do modelo.
Residual deviance
Null deviance
Estimate
Area
F
A AIC é outra medida de qualidade do ajuste que leva em consideração a capacidade do modelo de ajustar os dados. Isso é muito útil quando se compara dois modelos em que um pode se encaixar melhor, mas talvez apenas em virtude de ser mais flexível e, portanto, mais capaz de ajustar qualquer dado. Como você tem apenas um modelo, isso não é informativo.
A referência a Fisher scoring iterations
tem a ver com a forma como o modelo foi estimado. Um modelo linear pode ser ajustado resolvendo equações de forma fechada. Infelizmente, isso não pode ser feito com a maioria dos GLiMs, incluindo regressão logística. Em vez disso, é utilizada uma abordagem iterativa (o algoritmo de Newton-Raphson por padrão). Vagamente, o modelo é adequado com base em um palpite sobre quais podem ser as estimativas. O algoritmo olha em volta para ver se o ajuste seria melhorado usando estimativas diferentes. Nesse caso, ele se move nessa direção (digamos, usando um valor mais alto para a estimativa) e depois ajusta o modelo novamente. O algoritmo para quando não percebe que a mudança novamente traria muitas melhorias adicionais. Essa linha informa quantas iterações ocorreram antes do processo parar e gerar os resultados.
Em relação ao segundo modelo e saída listados, esta é apenas uma maneira diferente de exibir resultados. Especificamente, esses
Coefficients:
(Intercept) Areal
-0.3877697 0.0008166
são o mesmo tipo de estimativas discutidas acima (embora de um modelo diferente e apresentadas com menos informações suplementares).