Um intervalo de previsão precisa conter a média?

Estou tendo um grande problema com um problema conceitual que eu criei.

Digamos que uma empresa tenha uma distribuição altamente distorcida. Algo semelhante a um exponencial ou lognormal apenas mais extremo. Agora, finja que a distribuição está tão distorcida que a média da distribuição é superior ao percentil 99% da distribuição. (Aka 1-2 valores extremos mais altos fizeram com que a média fosse extremamente alta em comparação com o restante da distribuição).

Por definição, se essa distribuição fosse usada para prever um valor futuro (também conhecido como amostra aleatória da distribuição), seria verdade que a média não estaria no intervalo de previsão de 95%?

No meu cérebro, um intervalo de predição de 95% é um intervalo entre o qual 95% de todos os valores futuros se situam. Para qualquer distribuição, isso deve ser exatamente igual ao percentil 0,025 no limite inferior e o percentil 0,975 no limite superior ... Se a média for maior que o percentil 0,975, a média não estaria dentro dos 95% intervalo de previsão '.

Estou pensando nisso incorretamente? Parece estranho relatar uma previsão como

Valor médio previsto: 6.000,0000
Intervalo de previsão de 95%: [400,5000].

mean prediction-interval

— Outro sonho
fonte

O que você faria ao prever um valor de uma distribuição que não tem nenhum significado? Por que você acha que seria estranho fazer uma previsão para essa distribuição?

— whuber

Actuall Whuber ... o que você faria ao prever um valor a partir de uma distribuição sem média ... Você não pode fazer monte carlo porque não teria média ... Você poderia mostrar a distribuição da variável em si ... Você usaria talvez a mediana? Na verdade, não sei a resposta para essa pergunta, e talvez isso faça parte da confusão.

— Anotherdream 17/03/2015

Eu acho que parte da confusão é essa. Disseram-me para fornecer um intervalo de previsão para uma variável que se comporta MUITO semelhante a isso. A "estimativa do ponto de previsão" foi a média móvel de 6 meses. No entanto, a média móvel de 6 meses foi superior ao percentil superior ... Como tal, o meu "intervalo de previsão" não incluiu a minha "estimativa de previsão". Parece que todo mundo está dizendo que a média era um valor ruim para começar (o que eu posso ver ... eu não construí essa coisa haha). Estou seguindo isso corretamente? Talvez um valor diferente deva ser usado como a 'estimativa do ponto de previsão'?

— Anotherdream 17/03/15

Seu primeiro comentário é interessante em como parece introduzir o meio desnecessariamente. Depois de ter uma boa simulação da distribuição da própria variável, por que essas informações não são suficientes para fazer uma boa previsão? Não seria provável que um valor futuro estivesse dentro do corpo principal dessa distribuição? Por que o meio seria relevante nesse caso?

— whuber

Whuber. Concordo totalmente com o que você está dizendo .... Parece que a média não é relevante neste exemplo ... Mas isso implica que, se você alguma vez executar uma simulação, e usar "uma vara" (neste caso a média) como uma estimativa pontual e seus resíduos estão terrivelmente distorcidos, você pode simplesmente refazer a distribuição original tomando a estimativa de pontos distorcidos e amostrando aleatoriamente os resíduos e adicionando os resultados. Acabei de refazer o dist original da estimativa "tendenciosa" e a dist residual ... Então, para que serve a estimativa original?

— Anotherdream

Respostas:

Não, um intervalo de previsão não precisa conter a média. Acho que algumas das suas confusões podem estar misturando intervalos de previsão e intervalos de confiança. Embora o objetivo de um intervalo de previsão seja conter com alguma certeza os valores futuros da variável aleatória, o objetivo de um intervalo de confiança é conter a verdadeira média da distribuição.

Como você mencionou em distribuições altamente distorcidas, essas idéias parecem estar em desacordo. O importante é reconhecer o valor em cada uma das estatísticas fornecidas.

O valor preditivo da média é:

1) Cumulativo: À medida que mais amostras chegam, sua média tenderá à média verdadeira. Portanto, se o valor cumulativo for de interesse (por exemplo, se você estiver jogando e lidando com ganhos ou perdas, está interessado em efeitos cumulativos), a média é muito útil.

2) Minimiza os resíduos quadráticos: embora os resíduos quadráticos sejam uma quantidade de interesse um tanto arbitrária, vale a pena saber o que sua previsão está minimizando.

Se, no entanto, seu objetivo é minimizar o erro absoluto em suas previsões, o valor médio previsto de 6.000.000 não é o que eu usaria.

— jlimahaverford
fonte

Obrigado pelo tempo jlimahaverfold. Então, se eu entendi direito, é a seguinte uma afirmação verdadeira (acho que sim, apenas 'parece errado' haha). Se eu tivesse uma variável em que recebesse uma estimativa "pontual" (usando a média), mas os resíduos fossem extremamente fora do normal (exponencial, por exemplo), eu poderia obter a 'distribuição prevista', basicamente amostrando aleatoriamente a partir da distribuição residual 10k vezes (monte carlo) e, em seguida, a distribuição recém-criada faria o intervalo de previsão? Eu acho que esta é a forma como isso deve ser feito, mas wwant para confirmar que estou entendendo corretamente

— Anotherdream

Para esclarecer um pouco mais a minha pergunta. Se alguém fez uma previsão de média móvel de 6 meses, mas teve resíduos não normais nesta estimativa ... É correto criar a distribuição de previsão amostrando a distribuição residual e adicionando o valor à estimativa do ponto de previsão médio e calculando o intervalo de previsão de 95% a partir dos percentis dessa distribuição resultante? Além disso, você pode especificar com o que mais poderia ir além do "mean" se eu quisesse minimizar o erro absoluto em uma determinada previsão para dados altamente distorcidos? Mais uma vez, eu realmente aprecio sua ajuda!

— Anotherdream

Ainda estou tendo problemas para interpretar a pergunta. Deixe-me esclarecer o que estou procurando. Eu tenho uma variável aleatória X e dados {x1, x2, ... xN}. Presumo que essa média móvel de 6 meses seja algo parecido com \ sum_ {j = i} ^ {i + 180} x_i / 180. Algo nesse sentido. Quanto ao que eu quis dizer sobre minimizar os resíduos absolutos, é simplesmente outra função objetiva. Enquanto a média minimiza a soma dos resíduos quadrados, isso não minimiza necessariamente os resíduos absolutos, mas algum valor (não necessariamente único) sim.

— Jlimahaverford 17/03

+1, ponto muito interessante sobre uma possível confusão sobre intervalos de previsão e intervalos de confiança. Aliás, se você deseja minimizar o erro absoluto esperado, usa a mediana da distribuição preditiva como sua previsão em pontos ( veja aqui ). Obviamente, isso sempre será incluído em um intervalo de previsão (central).

— Stephan Kolassa

Stephan. Seu comentário ajuda um GRUPO. Eu acho que é isso que precisa acontecer no futuro dessas estimativas. Realmente acho que o problema é que a média era o lugar errado para começar a usar essas distribuições distorcidas ... Mas, como elas começaram aqui, fiquei confuso com o que eu poderia fazer ... É geralmente 'aceitável' usar uma mediana como uma 'estimativa do ponto de previsão' e dar limites? Eu sou muito novo para previsão e não tenho certeza se que é comumente feito com distribuições assimétricas ..

— Anotherdream

Considere a distribuição de possíveis retornos no paradoxo de São Petersburgo:

Problema (1) = 1/2

Prob (2) = 1/4

Problema (4) = 1/8 ... Problema (2 ^ n) = 1/2 ^ (n + 1)

A média diverge e está fora de qualquer intervalo de previsão razoável. (A mediana é 1 neste caso, mas não sei o que usaria para minha previsão de pontos. Talvez Stephan Kolassa, veja acima, tenha uma sugestão.)

Há outra complicação: digamos que você queira um intervalo de previsão de 95% para alguma distribuição (além da que acabei de mencionar). Você passa do ladrilho de 2,5% para o ladrilho de 97,5% ou do 0 ao 95º ou do 5º ao 100º ou ....? A resposta provavelmente depende do motivo pelo qual você está fazendo a pergunta.

— Emil Friedman
fonte