Podemos fazer afirmações probabilísticas com intervalos de previsão?


12

Eu li várias discussões excelentes no site sobre a interpretação de intervalos de confiança e intervalos de previsão, mas um conceito ainda é um pouco intrigante:

Considere o quadro OLS e nós obteve o equipada modelo y = X β . Recebemos um x e pedimos para prever sua resposta. Calculamos x * t β e, como bónus, que também proporcionam um intervalo de previsão de 95% em torno da nossa previsão, a la Obtenção de uma fórmula para limites de previsão de um modelo linear . Vamos chamar esse intervalo de previsão de PI.y^=Xβ^xxTβ^

Agora, qual das alternativas a seguir (ou nenhuma) é a interpretação correta do PI?

  1. Para em particular, y ( x ) está dentro de PI com 95% de probabilidade.xy(x)
  2. Se recebermos um grande número de s, este procedimento para calcular PIs cobrirá as respostas verdadeiras 95% do tempo.x

A partir da redação de @ gung no intervalo de previsão de regressão linear , parece que a primeira é verdadeira (embora eu possa muito bem interpretar mal.) se estiver correto, é porque estamos prevendo a realização de uma variável aleatória versus estimando um parâmetro ?

(Editar) Pergunta bônus: suponha que soubéssemos qual é o verdadeiro , ou seja, o processo que gera os dados, poderíamos falar sobre probabilidades em relação a qualquer previsão em particular, já que estamos apenas olhando para ϵ ?βϵ

Minha última tentativa de fazer isso: podemos "decompor conceitualmente" (usando a palavra muito livremente) um intervalo de previsão em duas partes: (A) um intervalo de confiança em torno da resposta média prevista e (B) uma coleção de intervalos que são apenas quantílicos intervalos do termo de erro. (B) podemos fazer afirmações probabilísticas, condicionadas ao conhecimento da verdadeira média prevista, mas como um todo, só podemos tratar os intervalos de previsão como ICs freqüentadores em torno dos valores previstos. Isso está correto?


A resposta que escrevi em stats.stackexchange.com/a/26704 implica que algo como (2) é o caso (de acordo com leis de grandes números), mas definitivamente não é (1).
whuber

Respostas:


5

Primeiro, no uso da palavra probabilidade, os freqüentadores não têm problema em usar a palavra probabilidade ao prever algo em que a peça aleatória ainda não ocorreu. Não gostamos da palavra probabilidade para um intervalo de confiança porque o parâmetro true não está mudando (estamos assumindo que é um valor fixo, embora desconhecido) e o intervalo é fixo porque é baseado em dados que já coletamos. Por exemplo, se nossos dados provêm de uma amostra aleatória de seres humanos adultos do sexo masculino x é sua altura e y é seu peso e se ajustamos ao modelo de regressão geral, não usamos probabilidade ao falar sobre os intervalos de confiança. Mas se eu quiser falar sobre qual é a probabilidade de um homem de 65 polegadas de altura escolhido aleatoriamente entre todos os homens de 65 polegadas de altura e peso dentro de um determinado intervalo,

Então, eu diria que a resposta para a pergunta do bônus é "Sim". Se soubéssemos informações suficientes, poderíamos calcular a probabilidade de ver qualquer valor dentro de um intervalo (ou encontrar um intervalo com a probabilidade desejada).

Para sua declaração rotulada "1". Eu diria que não há problema se você usar uma palavra como "aproximado" ao falar sobre o intervalo ou probabilidade. Como você mencionou na questão do bônus, podemos decompor a incerteza em uma peça sobre o centro da previsão e uma sobre a aleatoriedade em torno da verdadeira média. Quando as combinamos para cobrir toda a nossa incerteza (e assumindo que temos o modelo / normalidade correto), temos um intervalo que tenderá a ser muito amplo (embora também possa ser muito estreito), portanto, a probabilidade de um novo ponto escolhido aleatoriamente cair no intervalo de previsão não será exatamente 95%. Você pode ver isso por simulação. Comece com um modelo de regressão conhecido com todos os parâmetros conhecidos. Escolha uma amostra (entre muitos valores x) desse relacionamento, ajuste uma regressão, e calcule o (s) intervalo (s) de previsão. Agora gere um grande número de novos pontos de dados a partir do modelo verdadeiro novamente e compare-os com os intervalos de previsão. Fiz isso algumas vezes usando o seguinte código R:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Eu executei o código acima algumas vezes (cerca de 10, mas não mantive a contagem cuidadosa) e, na maioria das vezes, a proporção de novos valores que caíam nos intervalos variava entre 96% e 98%. Eu tive um caso em que o desvio padrão estimado era muito baixo, que as proporções estavam na faixa de 93% a 94%, mas todo o resto estava acima de 95%. Então, eu ficaria feliz com sua afirmação 1 com a alteração para "aproximadamente 95%" (assumindo que todas as suposições são verdadeiras ou próximas o suficiente para serem abordadas aproximadamente).

Da mesma forma, a declaração 2 precisa de um "aproximadamente" ou semelhante, porque para cobrir nossa incerteza, estamos capturando em média mais do que os 95%.


0

O segundo é melhor. O primeiro depende de que outras informações sejam conhecidas.

Usando um exemplo aleatório, é verdade que "95% dos intervalos (com 95% de confiança) incluiriam a média verdadeira de [inserir variável]".

Por outro lado, se um resultado é obviamente contra-intuitivo, não podemos afirmar (1).

Por exemplo, "meu teste de significância com 95% de confiança mostra que altura e peso estão negativamente correlacionados". Bem, isso é obviamente falso, e não podemos dizer que existe uma "probabilidade de 95% de que seja verdade". De fato, levando em consideração o conhecimento prévio, há uma probabilidade muito pequena de que seja verdade. É, no entanto, válido para dizer que "95% desses testes teria rendido um resultado correto."


1
Essa resposta parece discutir intervalos de confiança em vez de intervalos de previsão.
whuber

@whuber O mesmo princípio se aplica. Estamos lidando essencialmente com intervalos de confiança para uma determinada variável (a variável "prevista").

2
Há uma distinção importante entre um valor fixo (como um parâmetro) e o valor de uma variável aleatória. Além disso, o cerne da presente questão chega a essa distinção: o que pode ser dito sobre a probabilidade desse resultado aleatório ("futuro")? Parece, portanto, inadequado - e possivelmente enganoso - tratar essa questão como uma questão meramente sobre o significado da confiança.
whuber

@whuber A declaração (2) da publicação ainda não implica a declaração (1). Como no meu exemplo, uma previsão que foi contra a intuição óbvia / conhecimento de base não implicaria que os resultados futuros tenham 95% de chance de cair no PI. É verdade que o processo, 95% do tempo, daria PIs contendo o resultado futuro. Mas às vezes é possível detectar quando isso aconteceu ou não.

Você está certo, mas se estou lendo o seu comentário corretamente, suspeito que ele não entenda bem. A questão não é o fato de que (por design) um PI tem apenas 95% de chance de cobrir o valor futuro ou que dados adicionais (ou intuição) podem fornecer mais informações. A questão diante de nós diz respeito à questão de saber se um PI pode ser interpretado em termos de probabilidade condicional para o valor futuro (com base nos valores de regressão). Essa é realmente a interpretação de um PI de Bayes , como observa o OP, mas é inválida para um PI freqüentador.
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.