Procedimentos comuns de seleção de variáveis baseadas em dados (por exemplo, avançar, retroceder, passo a passo, todos os subconjuntos) tendem a gerar modelos com propriedades indesejáveis, incluindo:
- Coeficientes desviados de zero.
- Erros padrão muito pequenos e intervalos de confiança muito estreitos.
- Teste estatísticas e valores-p que não possuem o significado anunciado.
- Estimativas de ajuste do modelo que são excessivamente otimistas.
- Termos incluídos que podem não ter sentido (por exemplo, exclusão de termos de ordem inferior).
No entanto, os procedimentos de seleção de variáveis persistem. Dados os problemas com a seleção de variáveis, por que esses procedimentos são necessários? O que motiva seu uso?
Algumas propostas para iniciar a discussão ....
- O desejo de coeficientes de regressão interpretáveis? (Desorientado em um modelo com muitos IVs?)
- Eliminar a variação introduzida por variáveis irrelevantes?
- Eliminar covariâncias / redundâncias desnecessárias entre as variáveis independentes?
- Reduza o número de estimativas de parâmetros (questões de energia, tamanho da amostra)
Existem outros? Os problemas abordados pelas técnicas de seleção de variáveis são mais ou menos importantes do que os procedimentos de seleção de variáveis apresentam? Quando eles devem ser usados? Quando eles não devem ser usados?