Estou interessado em obter uma estimativa imparcial de em uma regressão linear múltipla.
Refletindo, posso pensar em dois valores diferentes que uma estimativa imparcial de pode estar tentando corresponder.
- Fora da amostra : o quadrado r que seria obtido se a equação de regressão obtida da amostra (ou seja, ) fosse aplicada a uma quantidade infinita de dados externos à amostra, mas a partir dos mesmos dados processo de geração.
- População : O quadrado r que seria obtido se uma amostra infinita fosse obtida e o modelo ajustado para essa amostra infinita (isto é, ) ou, alternativamente, apenas o quadrado R implicado pelo processo conhecido de geração de dados.
Entendo que ajustado é projetado para compensar o sobreajuste observado na amostra . No entanto, não está claro se ajustado R 2 é realmente uma estimativa imparcial de R 2 , e se é uma estimativa imparcial, qual dos dois acima definições de R 2 É com o objetivo de estimar.
Assim, minhas perguntas:
- O que é uma estimativa imparcial do que eu chamo acima fora da amostra ?
- O que é uma estimativa imparcial do que eu chamo acima população ?
- Existem referências que fornecem simulação ou outra prova da imparcialidade?