Eu acho que essa abordagem está errada, mas talvez seja mais útil se eu explicar o porquê. É desejável conhecer o melhor modelo, com algumas informações sobre um grande número de variáveis. Além disso, é uma situação em que as pessoas parecem se encontrar regularmente. Além disso, muitos livros (e cursos) sobre regressão abrangem métodos de seleção passo a passo, o que implica que eles devem ser legítimos. Infelizmente, porém, eles não são, e o emparelhamento dessa situação e objetivo é bastante difícil de navegar com êxito. A seguir, é apresentada uma lista de problemas com os procedimentos automatizados de seleção de modelos por etapas (atribuídos a Frank Harrell e copiados daqui ):
- Ele produz valores ao quadrado R que são muito tendenciosos para serem altos.
- Os testes F e qui-quadrado, citados ao lado de cada variável na impressão, não têm a distribuição reivindicada.
- O método gera intervalos de confiança para efeitos e valores previstos que são falsamente estreitos; veja Altman e Andersen (1989).
- Ele produz valores de p que não têm o significado apropriado, e a correção adequada para eles é um problema difícil.
- Ele fornece coeficientes de regressão enviesados que precisam de retração (os coeficientes para as demais variáveis são muito grandes; ver Tibshirani [1996]).
- Tem problemas graves na presença de colinearidade.
- Baseia-se em métodos (por exemplo, testes F para modelos aninhados) destinados a serem utilizados para testar hipóteses pré-especificadas.
- Aumentar o tamanho da amostra não ajuda muito; ver Derksen e Keselman (1992).
- Isso nos permite não pensar no problema.
- Ele usa muito papel.
A questão é: o que há de tão ruim nesses procedimentos / por que esses problemas ocorrem? A maioria das pessoas que fez um curso básico de regressão está familiarizada com o conceito de regressão à média , então é isso que eu uso para explicar essas questões. (Embora isso possa parecer fora de tópico a princípio, aceite comigo, eu prometo que é relevante.)
Imagine um treinador de atletismo no primeiro dia de testes. Trinta crianças aparecem. Essas crianças têm algum nível subjacente de capacidade intrínseca à qual nem o treinador, nem ninguém mais, tem acesso direto. Como resultado, o treinador faz a única coisa que ele pode fazer, ou seja, fazer todos correrem 100m. Presumivelmente, os tempos são uma medida de sua capacidade intrínseca e são tomados como tal. No entanto, eles são probabilísticos; alguma proporção de quão bem alguém se sai é baseada em sua capacidade real e outra é aleatória. Imagine que a verdadeira situação é a seguinte:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Os resultados da primeira corrida são exibidos na figura a seguir, juntamente com os comentários do treinador para as crianças.
Observe que a divisão das crianças pelo tempo de corrida deixa sobreposições em sua capacidade intrínseca - esse fato é crucial. Depois de elogiar alguns e gritar com outros (como os treinadores costumam fazer), ele os faz correr novamente. Aqui estão os resultados da segunda corrida com as reações do treinador (simuladas a partir do mesmo modelo acima):
Observe que sua capacidade intrínseca é idêntica, mas os tempos mudaram em relação à primeira corrida. Do ponto de vista do treinador, aqueles que ele gritava tendem a melhorar e aqueles que ele elogiava costumavam piorar (eu adaptei este exemplo concreto da citação de Kahneman listada na página da wiki), embora na verdade a regressão à média seja uma matemática simples conseqüência do fato de o treinador selecionar atletas para a equipe com base em uma medida parcialmente aleatória.
Agora, o que isso tem a ver com técnicas de seleção de modelo automatizadas (por exemplo, passo a passo)? O desenvolvimento e a confirmação de um modelo baseado no mesmo conjunto de dados às vezes é chamado de dragagem de dados. Embora exista alguma relação subjacente entre as variáveis, e espera-se que relações mais fortes produzam pontuações mais fortes (por exemplo, estatísticas t mais altas), essas são variáveis aleatórias e os valores realizados contêm erros. Portanto, quando você seleciona variáveis com base em valores realizados mais altos (ou mais baixos), eles podem ser assim devido ao seu valor verdadeiro subjacente, erro ou ambos. Se você proceder dessa maneira, ficará tão surpreso quanto o treinador ficou após a segunda corrida. Isso é verdade se você seleciona variáveis com base em estatísticas t altas ou intercorrelações baixas. É verdade que usar o AIC é melhor do que usar valores-p, porque penaliza o modelo por complexidade, mas o AIC é uma variável aleatória (se você executar um estudo várias vezes e se encaixar no mesmo modelo, o AIC se movimentará exatamente como todo o resto). Infelizmente,
Espero que isto seja útil.