Propriedades das regressões logísticas

Estamos trabalhando com algumas regressões logísticas e percebemos que a probabilidade média estimada sempre é igual à proporção de uma na amostra; isto é, a média dos valores ajustados é igual à média da amostra.

Alguém pode me explicar o motivo ou me dar uma referência para encontrar essa demonstração?

— Gabi Foix
fonte

A razão para isso é que a regressão logística está tentando conseguir exatamente isso: modelando a distribuição de dados, incluindo as probabilidades anteriores ("médias"). Esse comportamento é indesejável?

— bayerj

@bayer A não linearidade da função de link indica que esse fenômeno é mais profundo que a sua caracterização. Realmente há algo a ser demonstrado aqui.

— whuber

Essa propriedade às vezes é chamada de calibração geral quando a regressão logística é usada para estimar o risco.

— julieth 26/09/18

O comportamento que você está observando é o caso "típico" da regressão logística, mas nem sempre é verdadeiro. Também possui muito mais generalidade (veja abaixo). É a conseqüência da confluência de três fatos separados.

A escolha de modelar as chances de log como uma função linear dos preditores,
O uso da probabilidade máxima para obter estimativas dos coeficientes no modelo de regressão logística, e
A inclusão de um termo de interceptação no modelo.

Se qualquer uma das opções acima não estiver presente, as probabilidades médias estimadas não corresponderão, em geral, à proporção de uma na amostra.

No entanto, (quase) todo software estatístico usa estimativa de probabilidade máxima para esses modelos; portanto, na prática, os itens 1 e 2 estão sempre sempre presentes e o item 3 geralmente está presente, exceto em casos especiais.

Alguns detalhes

Na estrutura típica de regressão logística, observamos o resultado de ensaios binomiais independentes com probabilidade . Deixei $p_i$ ser as respostas observadas. Então a probabilidade total é $y_i$ e portanto, a probabilidade do log é

eu = \prod_{Eu = 1}^{n} p_{Eu}^{y_{Eu}} (1 - p_{Eu})^{1 - y_{Eu}} = \prod_{Eu = 1}^{n} \exp (y_{Eu} registro (p_{Eu} / (1 - p_{Eu})) + registro (1 - p_{Eu})),

$\mathcal L = \prod_{i=1}^n p_i^{y_i} (1-p_i)^{1 - y_i} = \prod_{i=1}^n \exp( y_i \log(p_i/(1-p_i)) + \log(1-p_i)) \>,$

ℓ = \sum_{Eu = 1}^{n} y_{Eu} registro (p_{Eu} / (1 - p_{Eu})) + \sum_{Eu = 1}^{n} registro (1 - p_{Eu}) .

$\ell = \sum_{i=1}^n y_i \log(p_i / (1-p_i)) + \sum_{i=1}^n \log(1-p_i) \> .$

Agora, temos um vetor de preditores para cada observação e, a partir do Fato 1 acima, o modelo de regressão logística postula que para algum vetor desconhecido de parâmetros . Nota : Ao reorganizar isso, obtemos que . $\newcommand{\x}{\mathbf x}\x_i$

registro \frac{p_{Eu}}{1 - p_{Eu}} = β^{T} x_{Eu},

$\log \frac{p_i}{1-p_i} = \beta^T \x_i \>,$

β

$\beta$

p_{i} = 1 / (1 + e^{- β^{T} x_{i}})

$p_i = 1/(1+e^{-\beta^T \x_i})$

Usar a probabilidade máxima de ajustar-se ao modelo (Fato 2) produz um conjunto de equações a serem resolvidas considerando . Observe que usando a relação linear assumida entre as probabilidades de log e os preditores. Isso significa que o MLE satisfaz uma vez que os MLEs são invariantes em transformações, portanto neste caso. $\partial \ell / \partial \beta = 0$

\frac{\partial ℓ}{\partial β} = \sum_{Eu} y_{Eu} x_{Eu} - \sum_{Eu} \frac{x_{Eu}}{1 + \exp (- β^{T} x_{Eu})} = \sum_{Eu} y_{Eu} x_{Eu} - \sum_{Eu} p_{Eu} x_{Eu},

$\frac{\partial \ell}{\partial \beta} = \sum_i y_i \x_i - \sum_i \frac{\x_i}{1+\exp(-\beta^T \x_i)} = \sum_i y_i \x_i - \sum_i p_i \x_i \>,$

\sum_{Eu} y_{Eu} x_{Eu} = \sum_{Eu} {\hat{p}}_{Eu} x_{Eu},

$\sum_i y_i \x_i = \sum_i \hat{p}_i \x_i \>,$

{\hat{p}}_{i} = (1 + \exp (- {\hat{β}}^{T} x_{i}))^{- 1}

$\hat{p}_i = (1+\exp(-\hat{\beta}^T \x_i))^{-1}$

Usando o Fato 3, se tem um componente que é sempre 1 para cada , então e, portanto, a proporção empírica de respostas positivas corresponde à média das probabilidades ajustadas. $\x_i$ $j$ $i$ $\sum_i y_i x_{ij} = \sum_i y_i = \sum_i \hat{p}_i$

Uma simulação

A inclusão de um intercepto é importante. Aqui está um exemplo em para demonstrar que o comportamento observado pode não ocorrer quando nenhuma interceptação estiver presente no modelo. $R$

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Caso geral : Como mencionado acima, a propriedade de que a resposta média é igual à média média prevista possui uma generalidade muito maior para a classe de modelos lineares generalizados, ajustada pela máxima verossimilhança, usando a função de link canônico e incluindo uma interceptação no modelo.

Referências

Algumas boas referências para a teoria associada são as seguintes.

A. Agresti (2002), Categorical Data Analysis , 2ª ed., Wiley.
P. McCullagh e JA Nelder (1989), Generalized Linear Models , 2ª ed., Chapman & Hall. (Texto de autores originais dos métodos gerais.)

— cardeal
fonte

+1 Esta demonstração (específica para o modelo de regressão logística, sem tentar generalizar para todos os GLMs) também é apresentada em Maddala (1983) Variáveis Dependentes e Qualitativas Limitadas em Econometria , pp. 25-26.

— StasK 5/10

@ Task: Obrigado pela referência adicional, que eu não estou familiarizado. Felicidades.

— cardeal

@ cardinal: Não me lembro da Agresti discutindo isso. É discutido em McCullagh e Nelder?

— julieth 26/09/18