Derivação de intervalos de confiança e previsão de previsões para probit e logit (e GLMs em geral)

A derivação do intervalo de previsão para o modelo linear é bastante simples: obter uma fórmula para os limites de previsão em um modelo linear .

Como derivar os intervalos de confiança e previsão para os valores ajustados das regressões logit e probit (e GLMs em geral)?

— statslearner
fonte

Você está definindo "previsões" para um resultado binário como a média da amostra, como uma proporção ou porcentagem?

— AdamO

@AdamO Acho que ele / ela está definindo previsões de regressão logística como a probabilidade condicional prevista. Ou seja, a previsão é , um estimador para , não .

\hat{p} (x)

$\hat{p}(x)$

P (Y | X = x)

$P(Y|X=x)$

\hat{Y} (x)

$\hat{Y}(x)$

— DeltaIV 15/02/19

@AdamO boa pergunta, quero um intervalo que faça minhas previsões cobrirem os valores futuros de 95% das vezes. Isso poderia ser feito com um intervalo para que se traduz em um intervalo de previsões (que seria trivialmente apenas 0, apenas 1 ou 0 e 1, eu acho).

y

$y$

\hat{p}

$\hat{p}$

— statslearner

@statslearner Eu não entendo. Deseja um intervalo finito, que cubra o valor futuro de , das vezes? Aqui está: . Nem depende de , o que mais você poderia pedir? Sério, não acho que faça sentido pedir um intervalo de previsão com uma saída de Bernoulli. Por outro lado, se você estivesse usando regressão logística para uma variável binomial, um intervalo de previsão faria sentido ...

y

$y$

100 %

$100\%$

I = [0, 1]

$I=[0,1]$

x

$x$

— DeltaIV:

@statslearner hmmm espera, talvez estejamos falando da mesma coisa. Você está corrigindo , amostrando vezes e procurando um intervalo de previsão para o número de sucessos? A estimativa pontual é obviamente , e um IP trivial de é , mas você gostaria de um intervalo melhor (mais curto). Em caso afirmativo, veja aqui: stats.stackexchange.com/questions/255570/…

x

$x$

y | x

$y|x$

n

$n$

n \hat{p} (x)

$n\hat{p}(x)$

100 %

$100\%$

[0, n]

$[0,n]$

— DeltaIV

Respostas:

No GLM, a previsão é uma função não linear do produto das covariáveis com vetor de coeficiente estimado : Distribuição por amostra finita de é geralmente desconhecido, mas desde que seja uma estimativa de probabilidade máxima , ela possui distribuição normal assintótica , em que é a matriz hessiana da função de probabilidade em seu máximo. Os valores p de $f$ $X$ $\hat{\beta}$

\hat{y} = f (X \hat{β})

$\hat{y} = f(X\hat{\beta})$

\hat{β}

$\hat{\beta}$

\hat{β}

$\hat{\beta}$

N (β, - H^{- 1})

$\mathcal{N}(\beta, -H^{-1})$

H

$H$

β

$\beta$ que são mostrados como resultado de uma regressão quase sempre se baseiam nesses assintóticos. Mas se você acha que sua amostra é muito pequena para assintóticos, use a distribuição numérica (por exemplo, inicialização).

Quando você usa uma distribuição normal assintótica de (e, portanto, ), a distribuição de ainda não é normal devido a não linear . Você pode ignorá-lo - obtenha limites de confiança normais para e conecte-os em , obtendo limites para como . $\hat{\beta}$ $X\hat{\beta}$ $\hat{y}$ $f$ $(z_{lower}, z_{upper})$ $X\beta$ $f$ $y$ $(y_{lower}, y_{upper}) = (f(z_{lower}), f(z_{upper}))$

Outra estratégia (chamada método delta ) é fazer uma expansão de de Taylor em torno de - será linear em . Portanto, você pode aproximar a distribuição de como $f$ $X\hat{\beta}$ $\hat{\beta}$ $f(X\hat{\beta})$

f (X \hat{β}) \sim N (f (X β), - (f^{^{'}} (X β))^{2} X H^{- 1} X^{T})

$f(X\hat{\beta}) \sim \mathcal{N}\left(f(X\beta), -(f^{'}(X\beta))^2 X H^{-1} X^T \right)$

Então, o intervalo de confiança assintótico de 95% para pareceria $f(X\beta)$

f (X \hat{β}) \pm 1.96 \sqrt{(f^{^{'}} (X \hat{β}))^{2} X H (\hat{β})^{- 1} X^{T}}

$f(X\hat{\beta}) \pm 1.96 \sqrt{(f^{'}(X\hat{\beta}))^2 X H(\hat{\beta})^{-1} X^T}$

Agora você só precisa encontrar expressão para matrizes Hessianas para modelos específicos, como regressão logística nesta questão . E esta questão apresenta uma comparação prática de bootstrap, limites normais transformados e método delta para regressão logística.

— David Dale
fonte

Mas isso fornece um intervalo de confiança ou um intervalo de previsão de . Parece apenas um intervalo de confiança, não é? Parece que deve haver um ruído extra considerado para um intervalo de previsão.

\hat{y}

$\hat{y}$

— statslearner

Esse é apenas um intervalo de confiança. Mas para modelos de resposta binária (como logit e probit), a previsão já é probabilística - a saída real é 1 ou 0 com alguma probabilidade. Ou seja, "intervalo de previsão" é sempre ou (se a probabilidade prevista for muito pequena) ou (se a probabilidade prevista for muito grande). Mas essa probabilidade prevista pode variar e o intervalo de confiança reflete isso.

[0, 1]

$[0, 1]$

[0, 0]

$[0, 0]$

[1, 1]

$[1,1]$

— David Dale

Quando tudo mais falhar, você sempre poderá criar ICs iniciados por inicialização para qualquer estatística. Aqui está um algoritmo simples:

Desenhe amostras com substituição de (onde é o número de linhas em ). Você verá que cerca de dois terços das suas observações aparecerão nessa amostra. $N$ $X$ $N$ $X$
Use essas amostras para ajustar um modelo
Use este modelo para gerar previsões para as observações em que não foram usadas no treinamento. $X$
Repita esse processo 100 ou mais vezes (quanto mais, melhor) para acumular uma coleção de previsões para cada observação. Esta coleção é uma aproximação à distribuição de suas previsões. Chame essas de "previsões de inicialização".
Construa intervalos de confiança usando quantis nas previsões. Por exemplo, para uma observação específica, calcule os quantis .025 e .975 para um intervalo de confiança de 95%.

— David Marx
fonte

Isso é interessante, mas em que circunstâncias você pode me garantir que isso cubra os verdadeiros 95% do tempo?

— statslearner