Pelo que entendi, a seleção de variáveis com base em valores-p (pelo menos no contexto de regressão) é altamente falha. Parece que a seleção de variáveis com base no AIC (ou similar) também é considerada defeituosa por alguns, por razões semelhantes, embora isso pareça um pouco obscuro (por exemplo, veja minha pergunta e alguns links sobre este tópico aqui: O que exatamente é "seleção de modelo por etapas"? )
Mas digamos que você opte por um desses dois métodos para escolher o melhor conjunto de preditores no seu modelo.
Burnham e Anderson 2002 (Seleção de modelos e inferência multimodal: uma abordagem prática da teoria da informação, página 83) afirmam que não se deve misturar a seleção de variáveis com base na AIC com a baseada no teste de hipóteses : "Testes de hipóteses nulas e abordagens teóricas da informação devem não podem ser usados juntos; são paradigmas de análise muito diferentes ".
Por outro lado, Zuur et al. 2009 (modelos de efeitos mistos com extensões em ecologia com R, página 541) parecem advogar o uso da AIC para encontrar primeiro o modelo ideal e, em seguida, realizar "ajustes finos" usando testes de hipótese : "A desvantagem é que a AIC pode ser conservadora , e talvez você precise aplicar alguns ajustes (usando procedimentos de teste de hipóteses da abordagem um) depois que a AIC tiver selecionado um modelo ideal ".
Você pode ver como isso deixa confuso o leitor dos dois livros sobre qual abordagem seguir.
1) São apenas "campos" diferentes de pensamento estatístico e um tópico de desacordo entre estatísticos? Uma dessas abordagens está simplesmente "desatualizada" agora, mas foi considerada apropriada no momento da redação deste artigo? Ou é alguém simplesmente errado desde o início?
2) Haveria um cenário em que essa abordagem seria apropriada? Por exemplo, eu venho de um contexto biológico, onde muitas vezes estou tentando determinar quais variáveis, se houver alguma, parecem afetar ou direcionar minha resposta. Muitas vezes tenho várias variáveis explicativas candidatas e estou tentando descobrir quais são "importantes" (em termos relativos). Observe também que o conjunto de variáveis preditoras de candidatos já está reduzido àquelas consideradas com alguma relevância biológica, mas isso ainda pode incluir de 5 a 20 preditores candidatos.