Embora os méritos da seleção de modelos por etapas tenham sido discutidos anteriormente, não está claro para mim o que exatamente é " seleção de modelos por etapas " ou " regressão por etapas ". Eu pensei que tinha entendido, mas não tenho mais tanta certeza.
Meu entendimento é que esses dois termos são sinônimos (pelo menos em um contexto de regressão) e se referem à seleção do melhor conjunto de variáveis preditivas em um modelo "ótimo" ou "melhor" , dados os dados. (Você pode encontrar a página da Wikipedia aqui e outra visão geral potencialmente útil aqui .)
Com base em vários encadeamentos anteriores (por exemplo, aqui: algoritmos para seleção automática de modelo ), parece que a seleção de modelo por etapas é considerada um pecado fundamental. E, no entanto, parece ser usado o tempo todo, inclusive pelo que parecem ser estatísticos bem respeitados. Ou estou misturando a terminologia?
Minhas principais perguntas são:
Por "seleção de modelo por etapas" ou "regressão por etapas", queremos dizer:
A ) testes de hipóteses seqüenciais, como testes de razão de verossimilhança ou análise de valores de p? (Há um post relacionado aqui: Por que os valores p enganam após a execução de uma seleção gradual? ) É isso que significa isso e por que é ruim?
Ou
B ) também consideramos a seleção baseada na AIC (ou critério de informação semelhante) igualmente ruim? A partir da resposta em Algoritmos para seleção automática de modelo , parece que isso também é criticado. Por outro lado, Whittingham et al. (2006; pdf ) 1 parece sugerir que a seleção de variáveis com base na abordagem da teoria da informação (TI) é diferente da seleção gradual (e parece ser uma abordagem válida) ...?E esta é a fonte de toda a minha confusão.
Para acompanhar, se a seleção baseada na AIC se enquadrar em "stepwise" e for considerada inadequada, aqui estão algumas perguntas adicionais:
Se essa abordagem está errada, por que é ensinada em livros didáticos, cursos universitários etc.? Tudo isso está errado?
Quais são as boas alternativas para selecionar quais variáveis devem permanecer no modelo? Encontrei recomendações para usar conjuntos de dados de validação cruzada e teste de treinamento e o LASSO.
Acho que todos podem concordar que jogar indiscriminadamente todas as variáveis possíveis em um modelo e fazer a seleção gradual é problemático. Certamente, algum julgamento sensato deve guiar o que entra inicialmente. Mas e se já começarmos com um número limitado de possíveis variáveis preditivas baseadas em algum conhecimento (digamos biológico), e todos esses preditores podem estar explicando nossa resposta? Essa abordagem de seleção de modelos ainda seria falha? Também reconheço que a seleção do "melhor" modelo pode não ser apropriada se os valores da AIC entre os diferentes modelos forem muito semelhantes (e a inferência multi-modelo pode ser aplicada nesses casos). Mas a questão subjacente ao uso da seleção gradual baseada na AIC ainda é problemática?
Se estamos procurando ver quais variáveis parecem explicar a resposta e de que maneira, por que essa abordagem está errada, pois sabemos que "todos os modelos estão errados, mas alguns são úteis"?
1. Whittingham, MJ, Stephens, Pensilvânia, Bradbury, RB e Freckleton, RP (2006). Por que ainda usamos modelagem gradual em ecologia e comportamento? Jornal de Ecologia Animal, 75, pp. 1182-1189.