Intervalos de previsão para o resultado de uma regressão logística com resposta binomial

Suponha que tenhamos um modelo de regressão logística:

\begin{aligned} P (y = 1 | x) & = p \\ \log (\frac{p}{1 - p}) & = β x \end{aligned}

$\begin{align} P(y=1\vert\mathbf{x}) &= p \\ \log\left(\frac{p}{1-p}\right) &= \boldsymbol{\beta}\mathbf{x} \end{align}$

Dada uma amostra aleatória $D=\{\mathbf{X},\mathbf{y}\}$ de tamanho $N$ , podemos calcular intervalos de confiança para o $\boldsymbol{\beta}$ e intervalos de previsão correspondentes para $p$ , dado um determinado valor $\mathbf{x}^*$ do vetor preditor. Tudo isso é muito padrão e detalhado, por exemplo, aqui .

Suponha, em vez disso, que eu esteja interessado em um intervalo de previsão para $y$ , dado $\mathbf{x}^*$ . Obviamente, não faz nenhum sentido computar um intervalo de previsão para uma única realização de $y$ , porque $y$ só pode assumir os valores 0 e 1, e nenhum valor entre eles. No entanto , se considerarmos $m$ realizações de $y$ para o mesmo valor fixo de $\mathbf{x}^*$ , isso se tornará semelhante (mas não idêntico) à questão de calcular um intervalo de previsão para uma variável aleatória binomial . Esta é basicamente a mesma situação descrita por Glen_b nos comentários a esta resposta. Essa pergunta tem uma resposta, além da trivial "use bootstrap não paramétrico"?

logistic binomial prediction-interval

— DeltaIV
fonte

você pode calcular um intervalo de previsão para

l o g (p / (1 - p))

$log(p / (1-p))$ talvez?

— Hugh Perkins

@HughPerkins Acho que a questão é como combinar a incerteza em p com a incerteza na amostragem binomial, também dada a incerteza em p . Existe uma solução em formato fechado?

— EdM

@ EdM você entendeu meu ponto. Gostaria de saber se existe uma solução de formulário fechado ou uma aproximação analítica.

— DeltaIV

idéia aleatória [offtopic], me ocorre que poderia ser interessante ter uma tag como 'oportunidade de pesquisa aberta' para perguntas como esta que / se forem respondidas negativamente

— Hugh Perkins

Uma maneira de isso funcionar sem o bootstrapping (que na prática pode ser a coisa mais rápida a ser implementada) seria:

Suponha que uma aproximação normal para as chances de log previstas ( ) mais / menos seu erro padrão funcione. Qualquer software de regressão logística fornecerá isso. $x \hat{\beta}$
Os percentis dessa distribuição se transformam em probabilidades por meio do anti-logit.
Pode-se encontrar uma (mistura de) distribuição (ões) beta (s) que se aproxima da distribuição preditiva da probabilidade também.
A distribuição preditiva para o resultado é então uma (mistura de) distribuição beta-binomial (es) com os mesmos pesos de mistura usados na etapa 3).

Como alternativa, pode-se "apenas" integrar as probabilidades do log a partir da previsão conjunta de resultados e probabilidades do log, mas acredito que será uma bagunça completa, sem solução de formulário fechado.

— Björn
fonte

Você também pode simular diretamente do normal multivariado assintótico para e formar uma mistura de binômios sobre esses valores.

β - \hat{β}

$\beta-\hat{\beta}$

— Glen_b -Reinstala Monica

Gosto da ideia geral, mas não tenho certeza dos detalhes. Por exemplo, "encontre uma (mistura de) distribuição (ões) beta (s) que se aproxime bem da distribuição preditiva da probabilidade", como você faz isso na prática? Você poderia adicionar um exemplo? Mesmo uma de baixa dimensão seria suficiente.

— DeltaIV

Posso escrever isso como algo na forma de uma resposta, se você preferir - não me importo de nenhuma maneira.

— Glen_b -Reinstala Monica

@ Glen_b eu realmente aprecio isso.

— DeltaIV 6/04/19

@ Glen_b, eu estaria interessado em ver essa resposta.

— Richard Hardy