Intervalo de previsão para uma proporção futura de sucessos na configuração Binomial


9

Suponha que eu ajuste uma regressão binomial e obtenha as estimativas pontuais e a matriz de variância-covariância dos coeficientes de regressão. Isso me permitirá obter um IC para a proporção esperada de sucessos em um experimento futuro, , mas preciso de um IC para a proporção observada. Foram postadas algumas respostas relacionadas, incluindo simulação (suponha que eu não queira fazer isso) e um link para Krishnamoorthya et al (que não responde totalmente à minha pergunta).p

Meu raciocínio é o seguinte: se usarmos apenas o modelo Binomial, somos forçados a assumir que é amostrado da distribuição Normal (com o correspondente Wald CI) e, portanto, é impossível obter o IC para a proporção observada em forma fechada. Se assumirmos que é amostrado da distribuição beta, as coisas ficam muito mais fáceis porque a contagem de sucessos seguirá a distribuição beta-binomial. Teremos que assumir que não há incerteza nos parâmetros beta estimados, e .ppαβ

Existem três perguntas:

1) Teórico: pode-se usar apenas as estimativas pontuais dos parâmetros beta? Eu sei que para construir um IC para observação futura em regressão linear múltipla

Y=xβ+ϵ,ϵN(0,σ2)

eles fazem essa variância do termo de erro errado, . Entendo (corrija-me se estiver errado) que a justificativa é que na prática seja estimado com uma precisão muito maior do que os coeficientes de regressão e não ganharemos muito tentando incorporar a incerteza de . Uma justificativa semelhante é aplicável aos parâmetros beta estimados, e ?σ2σ2σ2αβ

2) Qual pacote é melhor (R: gamlss-bb, betareg, aod ?; eu também tenho acesso ao SAS).

3) Dados os parâmetros beta estimados, existe um atalho (aproximado) para obter os quantis (2,5%, 97,5%) para a contagem de sucessos futuros ou, melhor ainda, para a proporção de sucessos futuros na distribuição beta-binomial.


Em uma pergunta, sim isso é uma coisa válida que as pessoas fazem, é chamado Empirical Bayes: en.wikipedia.org/wiki/Empirical_Bayes_method
Paul

11
Não acho que o uso do método XYZ para estimar um parâmetro de modelo possa implicar automaticamente que não há problema em ignorar a incerteza de estimativa ao produzir um IC para uma observação futura. Por exemplo, em regressão linear múltipla, eles usam OLS em vez de EB, e a incerteza em é ignorada. Por que é que? Além disso, esse artigo da Wiki nunca sugere que, no EB, a precisão da estimativa de hiperparâmetros de nível superior seja tipicamente muito maior que não há problema em considerá-los corrigidos para fins práticos. σ
James

11
“Quando a distribuição verdadeira atinge um pico acentuado, a determinação integral pode não ser muito alterada substituindo a distribuição de probabilidade sobre por uma estimativa pontual representando o pico da distribuição ”. Se isso é verdade no seu caso, depende das especificidades do domínio do seu problema. p ( θ y ) η η p(ηy)p(θy)ηη
Paul

2
Boa pergunta! Você não pode obter um pivô, mas e quanto à probabilidade de perfil? Veja Que métodos não bayesianos existem para inferência preditiva? .
Scortchi - Reinstate Monica

Respostas:


1

Vou abordar todas as três partes da questão.

Existem duas questões conflitantes, primeiro é o método que você usa para ajustar um modelo de regressão neste caso. A segunda é como intervalo de estimativas a partir de suas estimativas para prever uma nova estimativa.

se suas variáveis ​​de resposta forem distribuídas binomialmente, você normalmente usaria uma regressão logística ou uma regressão probit (glm com cdf normal como uma função de link).

Se você fizer uma regressão logística, considere a resposta como a razão das contagens observadas divididas pelo limite superior conhecido, ou seja, . Em seguida, pegue seus preditores / covariáveis ​​e coloque-os na sua chamada R para uma função glm. O objeto retornado tem tudo o que você precisa para fazer o resto de seus cálculos. yi/ni

x<- rnorm(100, sd=2)
prob_true <- 1/(1+exp(-(1+5*x)))
counts <- rbinom(100, 50,prob_true)
print(d.AD <- data.frame(counts,x))
glm.D93 <- glm(counts/50 ~ x, family = binomial() )

Para um modelo de regressão linear , a fórmula para um intervalo de previsão é:

y^i±tnpsy1+1n+(xix¯)2(n1)sx2

Você pode usar o modelo de regressão linear como uma aproximação para o glm. Para fazer isso, você faria a fórmula de regressão linear para a combinação linear de preditores antes de fazer a transformação de link inverso para obter as probabilidades de volta na escala 0-1. O código para fazer isso é inserido na função R do forecast.glm (). Aqui está um exemplo de código que também fará um bom gráfico. ( EDIT : este código é para intervalo de confiança, não para intervalo de previsão)

y_hat <- predict(glm.D93, type="link", se.fit=TRUE)
t_np<- qt(.975, 100-2, ncp=0)

ub <- y_hat$fit + t_np * y_hat$se.fit
lb <- y_hat$fit - t_np * y_hat$se.fit

point <- y_hat$fit

p_hat <- glm.D93$family$linkinv(point)
p_hat_lb <- glm.D93$family$linkinv(lb)
p_hat_ub <- glm.D93$family$linkinv(ub)

plot(x,p_hat)
points(x, p_hat_ub, col='red')
points(x, p_hat_lb, col='blue')

Você pode fazer o mesmo com qualquer glm, por exemplo, Poisson, Gaussiano inverso, gama, etc. Em cada caso, faça o intervalo de previsão na escala da combinação linear dos preditores. Depois de obter os dois pontos finais do intervalo de previsão, você os converte por meio do link inverso. Para cada uma das glms mencionadas, o link inverso pode ser diferente do caso de logit que escrevi aqui. Espero que isto ajude.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.