Eu li várias discussões excelentes no site sobre a interpretação de intervalos de confiança e intervalos de previsão, mas um conceito ainda é um pouco intrigante:
Considere o quadro OLS e nós obteve o equipada modelo y = X β . Recebemos um x ∗ e pedimos para prever sua resposta. Calculamos x * t β e, como bónus, que também proporcionam um intervalo de previsão de 95% em torno da nossa previsão, a la Obtenção de uma fórmula para limites de previsão de um modelo linear . Vamos chamar esse intervalo de previsão de PI.
Agora, qual das alternativas a seguir (ou nenhuma) é a interpretação correta do PI?
- Para em particular, y ( x ∗ ) está dentro de PI com 95% de probabilidade.
- Se recebermos um grande número de s, este procedimento para calcular PIs cobrirá as respostas verdadeiras 95% do tempo.
A partir da redação de @ gung no intervalo de previsão de regressão linear , parece que a primeira é verdadeira (embora eu possa muito bem interpretar mal.) se estiver correto, é porque estamos prevendo a realização de uma variável aleatória versus estimando um parâmetro ?
(Editar) Pergunta bônus: suponha que soubéssemos qual é o verdadeiro , ou seja, o processo que gera os dados, poderíamos falar sobre probabilidades em relação a qualquer previsão em particular, já que estamos apenas olhando para ϵ ?
Minha última tentativa de fazer isso: podemos "decompor conceitualmente" (usando a palavra muito livremente) um intervalo de previsão em duas partes: (A) um intervalo de confiança em torno da resposta média prevista e (B) uma coleção de intervalos que são apenas quantílicos intervalos do termo de erro. (B) podemos fazer afirmações probabilísticas, condicionadas ao conhecimento da verdadeira média prevista, mas como um todo, só podemos tratar os intervalos de previsão como ICs freqüentadores em torno dos valores previstos. Isso está correto?