Em Thinking, Fast and Slow , Daniel Kahneman coloca a seguinte pergunta hipotética:
(P. 186) Atualmente, Julie está no último ano de uma universidade estadual. Ela leu fluentemente quando tinha quatro anos de idade. Qual é a média de notas (GPA)?
Sua intenção é ilustrar como muitas vezes deixamos de levar em consideração a regressão à média ao fazer previsões sobre determinadas estatísticas. Na discussão subsequente, ele aconselha:
(P. 190) Lembre-se de que a correlação entre duas medidas - no presente caso, leitura de idade e GPA - é igual à proporção de fatores compartilhados entre seus determinantes. Qual é o seu melhor palpite sobre essa proporção? Meu palpite mais otimista é de cerca de 30%. Assumindo essa estimativa, temos tudo o que precisamos para produzir uma previsão imparcial. Aqui estão as instruções de como chegar lá em quatro etapas simples:
- Comece com uma estimativa do GPA médio.
- Determine o GPA que corresponde à sua impressão das evidências.
- Estime a correlação entre precocidade da leitura e GPA.
- Se a correlação for 0,30, mova 30% da distância da média para o GPA correspondente.
Minha interpretação de seus conselhos é a seguinte:
- Use "Ela leu fluentemente quando tinha quatro anos" para estabelecer uma pontuação padrão para a precocidade da leitura de Julie.
- Determine um GPA que tenha uma pontuação padrão correspondente. (O GPA racional a prever corresponderia a essa pontuação padrão se a correlação entre o GPA e a precocidade da leitura fosse perfeita.)
- Estime qual porcentagem de variações no GPA pode ser explicada por variações na precocidade da leitura. (Presumo que ele esteja se referindo ao coeficiente de determinação com "correlação" nesse contexto?)
- Como apenas 30% da pontuação padrão da precocidade de leitura de Julie pode ser explicada por fatores que também podem explicar a pontuação padrão de seu GPA, apenas justificamos prever que a pontuação padrão do GPA de Julie será 30% do que seria no caso de perfeita correlação.
Minha interpretação do procedimento de Kahneman está correta? Em caso afirmativo, existe uma justificativa matemática mais formal de seu procedimento, especialmente a etapa 4? Em geral, qual é a relação entre a correlação entre duas variáveis e alterações / diferenças em seus escores padrão?