Existem vários problemas com a seleção gradual. Eu discuti passo a passo na minha resposta aqui: Algoritmos para seleção automática de modelo . Nessa resposta, não me concentrei principalmente nos problemas com inferência, mas no fato de que os coeficientes são tendenciosos (os atletas que testam são análogos às variáveis). Como os coeficientes são desviados de seus valores reais, o erro preditivo fora da amostra deve ser aumentado, ceteris paribus.
Considere a noção de compensação de desvio e desvio . Se você pensa na precisão do seu modelo como a variação dos erros de previsão (ou seja, MSE: ), o erro de previsão esperado é a soma de três fontes diferentes de variação :1 / n ∑ ( yEu- y^Eu)2
E[ (yEu- y^Eu)2] =Var( f^) + [ B i a s ( f^) ]2+ V a r ( ε )
Esses três termos são a variação de sua estimativa da função, o quadrado do viés da estimativa e o erro irredutível no processo de geração de dados, respectivamente. (O último existe porque os dados não são determinísticos - você nunca obterá previsões mais próximas do que a média.) Os dois primeiros vêm do procedimento usado para estimar seu modelo. Por padrão, podemos pensar que o
OLS é o procedimento usado para estimar o modelo, mas é mais correto dizer que a
seleção gradual sobre as estimativas do OLS é o procedimento. A idéia do trade-off de desvio de variação é que, enquanto um modelo explicativo enfatiza corretamente a imparcialidade, um modelo preditivo pode se beneficiar do uso de um procedimento de desvio se a variação for suficientemente reduzida (para uma explicação mais completa, consulte:
Que problema os métodos de encolhimento resolvem? )
Com essas idéias em mente, o ponto da minha resposta ligada no topo é que uma grande quantidade de preconceito é induzida. Todas as coisas são iguais, o que tornará as previsões da amostra piores. Infelizmente, a seleção gradual não reduz a variação da estimativa. Na melhor das hipóteses, sua variância é a mesma, mas é provável que a variância seja muito pior (por exemplo, o @Glen_b relata que apenas 15,5% das vezes foram as variáveis certas, mesmo escolhidas em um estudo de simulação discutido aqui: por que Valores-p enganosos após executar uma seleção gradual? ).