Na psicologia e em outros campos, geralmente é empregada uma forma de regressão gradual que envolve o seguinte:
- Observe os preditores restantes (não há nenhum no modelo a princípio) e identifique o preditivo que resulta na maior mudança no quadrado r;
- Se o valor p da alteração do quadrado r for menor que alfa (normalmente 0,05), inclua esse preditor e volte para a etapa 1, caso contrário, pare.
Por exemplo, consulte este procedimento no SPSS .
O procedimento é rotineiramente criticado por uma ampla variedade de razões (consulte esta discussão no site da Stata com referências ).
Em particular, o site Stata resume vários comentários de Frank Harrell. Estou interessado na reivindicação:
[regressão passo a passo] produz valores ao quadrado R muito tendenciosos para serem altos.
Especificamente, algumas das minhas pesquisas atuais concentram-se na estimativa do quadrado da população . Por quadrado da população, refiro-me à porcentagem de variância explicada pelos dados da população que geram a equação na população. Grande parte da literatura existente que estou revisando utilizou procedimentos de regressão passo a passo e quero saber se as estimativas fornecidas são tendenciosas e, em caso afirmativo, por quanto. Em particular, um estudo típico teria 30 preditores, n = 200, alfa de entrada de 0,05 e estimativas do quadrado-r em torno de 0,50.
O que eu sei:
- Assintoticamente, qualquer preditor com coeficiente diferente de zero seria um preditor estatisticamente significativo e o quadrado r seria igual ao quadrado r ajustado. Assim, a regressão assintoticamente gradual deve estimar a verdadeira equação de regressão e a verdadeira população r-quadrado.
- Com tamanhos de amostra menores, a possível omissão de alguns preditores resultará em um quadrado r menor do que todos os preditores foram incluídos no modelo. Mas também o viés usual do quadrado r para amostrar dados aumentaria o quadrado r. Assim, meu pensamento ingênuo é que, potencialmente, essas duas forças opostas poderiam, sob certas condições, resultar em um quadrado r imparcial. E, de maneira mais geral, a direção do viés dependeria de vários recursos dos dados e dos critérios de inclusão alfa.
- Definir um critério de inclusão alfa mais rigoroso (por exemplo, .01, .001, etc.) deve diminuir o quadrado r estimado estimado, porque a probabilidade de incluir qualquer preditor em qualquer geração dos dados será menor.
- Em geral, o quadrado-r é uma estimativa tendenciosa para cima da população-quadrado e o grau desse viés aumenta com mais preditores e tamanhos de amostra menores.
Questão
Então, finalmente, minha pergunta:
- Até que ponto o quadrado r da regressão gradual resulta em uma estimativa tendenciosa da população quadrado r?
- Até que ponto esse viés está relacionado ao tamanho da amostra, número de preditores, critério de inclusão alfa ou propriedades dos dados?
- Há alguma referência sobre este tópico?