depois de realizar uma seleção gradual baseada no critério da AIC, é enganoso observar os valores de p para testar a hipótese nula de que cada coeficiente de regressão verdadeiro é zero.
De fato, os valores p representam a probabilidade de ver uma estatística de teste pelo menos tão extrema quanto a que você possui, quando a hipótese nula é verdadeira. Se H0 0 for verdadeiro, o valor p deve ter uma distribuição uniforme.
Porém, após a seleção gradual (ou, de fato, após várias outras abordagens para a seleção de modelos), os valores-p dos termos que permanecem no modelo não possuem essa propriedade, mesmo quando sabemos que a hipótese nula é verdadeira.
Isso acontece porque escolhemos as variáveis que possuem ou tendem a ter pequenos valores de p (dependendo dos critérios precisos que usamos). Isso significa que os valores p das variáveis deixadas no modelo são tipicamente muito menores do que seriam se tivéssemos ajustado um único modelo. Observe que, em média, a seleção selecionará modelos que parecem se encaixar ainda melhor que o modelo real, se a classe de modelos incluir o modelo verdadeiro ou se a classe de modelos for flexível o suficiente para aproximar o modelo real.
[Além disso, e basicamente pelo mesmo motivo, os coeficientes restantes são desviados de zero e seus erros padrão são desviados baixos; isso, por sua vez, também afeta os intervalos de confiança e as previsões - nossas previsões serão muito estreitas, por exemplo.]
Para ver esses efeitos, podemos fazer uma regressão múltipla em que alguns coeficientes são 0 e outros não, executar um procedimento passo a passo e, em seguida, para os modelos que contêm variáveis com zero coeficiente, observe os valores de p resultantes.
(Na mesma simulação, é possível examinar as estimativas e os desvios padrão dos coeficientes e descobrir os que correspondem a coeficientes diferentes de zero também são afetados.)
Em resumo, não é apropriado considerar os valores-p usuais como significativos.
Ouvi dizer que se deve considerar todas as variáveis deixadas no modelo como significativas.
Quanto à questão de saber se todos os valores no modelo após o passo a passo devem ser 'considerados significativos', não tenho certeza até que ponto essa é uma maneira útil de analisá-lo. O que "significado" pretende significar então?
Aqui está o resultado da execução de Rs stepAIC
com configurações padrão em 1000 amostras simuladas com n = 100 e dez variáveis candidatas (nenhuma delas relacionada à resposta). Em cada caso, o número de termos restantes no modelo foi contado:
Apenas 15,5% das vezes foi escolhido o modelo correto; no restante do tempo, o modelo incluía termos que não eram diferentes de zero. Se for realmente possível que existam variáveis com coeficiente zero no conjunto de variáveis candidatas, é provável que tenhamos vários termos em que o coeficiente verdadeiro é zero em nosso modelo. Como resultado, não está claro que é uma boa ideia considerar todos eles como diferentes de zero.