O comportamento que você está observando é o caso "típico" da regressão logística, mas nem sempre é verdadeiro. Também possui muito mais generalidade (veja abaixo). É a conseqüência da confluência de três fatos separados.
- A escolha de modelar as chances de log como uma função linear dos preditores,
- O uso da probabilidade máxima para obter estimativas dos coeficientes no modelo de regressão logística, e
- A inclusão de um termo de interceptação no modelo.
Se qualquer uma das opções acima não estiver presente, as probabilidades médias estimadas não corresponderão, em geral, à proporção de uma na amostra.
No entanto, (quase) todo software estatístico usa estimativa de probabilidade máxima para esses modelos; portanto, na prática, os itens 1 e 2 estão sempre sempre presentes e o item 3 geralmente está presente, exceto em casos especiais.
Alguns detalhes
Na estrutura típica de regressão logística, observamos o resultado de ensaios binomiais independentes com probabilidade . Deixeipi ser as respostas observadas. Então a probabilidade total é
L = n ∏ i = 1 p y i i ( 1 - p i ) 1 - y i = n ∏ i = 1 exp ( y i log ( p i / ( 1 - p iyi
e , portanto, a probabilidade do log é
ℓ = n ∑ i = 1 y i log ( p i / ( 1 - p i ) ) + n ∑ i = 1 log ( 1 - p i )
L = ∏i = 1npyEuEu( 1 - pEu)1 - yEu= ∏i = 1nexp( yEuregistro( pEu/ (1- pEu) ) + log( 1 - pEu) )),
ℓ = ∑i = 1nyEuregistro( pEu/ (1- pEu) ) + ∑i = 1nregistro( 1 - pEu).
Agora, temos um vetor de preditores para cada observação e, a partir do Fato 1 acima, o modelo de regressão logística postula que
para algum vetor desconhecido de parâmetros . Nota : Ao reorganizar isso, obtemos que . log p ixEu
registropEu1 - pEu= βTxEu,
p i = 1 / ( 1 + e - β T x i )βpEu= 1 / ( 1 + e- βTxEu)
Usar a probabilidade máxima de ajustar-se ao modelo (Fato 2) produz um conjunto de equações a serem resolvidas considerando . Observe que
usando a relação linear assumida entre as probabilidades de log e os preditores. Isso significa que o MLE satisfaz
uma vez que os MLEs são invariantes em transformações, portanto neste caso.∂ l de∂ℓ / ∂β= 0
∂ℓ∂β= ∑EuyEuxEu- ∑EuxEu1 + exp( - βTxEu)= ∑EuyEuxEu- ∑EupEuxEu,
∑EuyEuxEu= ∑Eup^EuxEu,
p^Eu= ( 1 + exp( - β^TxEu) ))- 1
Usando o Fato 3, se tem um componente que é sempre 1 para cada , então e, portanto, a proporção empírica de respostas positivas corresponde à média das probabilidades ajustadas.xEujEu∑EuyEuxeu j= ∑EuyEu= ∑Eup^Eu
Uma simulação
A inclusão de um intercepto é importante. Aqui está um exemplo em para demonstrar que o comportamento observado pode não ocorrer quando nenhuma interceptação estiver presente no modelo.R
x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )
Caso geral : Como mencionado acima, a propriedade de que a resposta média é igual à média média prevista possui uma generalidade muito maior para a classe de modelos lineares generalizados, ajustada pela máxima verossimilhança, usando a função de link canônico e incluindo uma interceptação no modelo.
Referências
Algumas boas referências para a teoria associada são as seguintes.
- A. Agresti (2002), Categorical Data Analysis , 2ª ed., Wiley.
- P. McCullagh e JA Nelder (1989), Generalized Linear Models , 2ª ed., Chapman & Hall. (Texto de autores originais dos métodos gerais.)