No capítulo "Regressão à média" de "Pensando, rápido e devagar", de Daniel Kahneman, um exemplo é dado e o leitor é solicitado a prever as vendas de lojas individuais, considerando a previsão geral de vendas e os números de vendas do ano anterior . Por exemplo (o exemplo do livro tem 4 lojas, eu uso 2 aqui para simplificar):
Store 2011 2012
1 100 ?
2 500 ?
Total 600 660
A previsão ingênua seria 110 e 550 para as lojas 1 e 2, aumento de 10% para cada uma. No entanto, o autor afirma que essa abordagem ingênua está errada. É mais provável que a loja com pior desempenho aumente mais de 10% e a loja com melhor desempenho aumente (ou até diminua) em menos de 10%. Portanto, talvez uma previsão de 115 (aumento de 15%) e 535 (aumento de 7%) seja "mais correta" do que a ingênua previsão.
O que não entendo é como podemos concluir que as vendas de 100 lojas 1 são necessariamente as lojas com pior desempenho? Talvez, devido às diferenças de localização, os verdadeiros meios de séries temporais das lojas 1 e 2 sejam 10 e 550, e a loja 1 tenha tido um super ano em 2011 e a loja 2 tenha tido um ano desastroso em 2011. Então não faria sentido prever uma diminuição para a loja 1 e aumentar para a loja 2?
Sei que as informações de séries temporais não foram fornecidas no exemplo original, mas tenho a impressão de que "regressão à média" se refere à média transversal e, portanto, as informações de séries temporais não importam. O que estou entendendo mal?