Por que os valores p enganam depois de executar uma seleção gradual?


28

Vamos considerar, por exemplo, um modelo de regressão linear. Ouvi dizer que, na mineração de dados, depois de realizar uma seleção gradual baseada no critério da AIC, é enganoso olhar para os valores p para testar a hipótese nula de que cada coeficiente de regressão verdadeiro é zero. Ouvi dizer que se deve considerar todas as variáveis ​​deixadas no modelo como tendo um coeficiente de regressão verdadeiro diferente de zero. Alguém pode me explicar o porquê? Obrigado.



1
Em theoryecology.wordpress.com/2018/05/03/… , mostro algum código R demonstrando a inflação do tipo I após a seleção da AIC. Observe que não importa se é gradual ou global, o ponto é que a seleção do modelo é basicamente um teste múltiplo.
Florian Hartig 03/08

Respostas:


33

depois de realizar uma seleção gradual baseada no critério da AIC, é enganoso observar os valores de p para testar a hipótese nula de que cada coeficiente de regressão verdadeiro é zero.

De fato, os valores p representam a probabilidade de ver uma estatística de teste pelo menos tão extrema quanto a que você possui, quando a hipótese nula é verdadeira. Se H0 0 for verdadeiro, o valor p deve ter uma distribuição uniforme.

Porém, após a seleção gradual (ou, de fato, após várias outras abordagens para a seleção de modelos), os valores-p dos termos que permanecem no modelo não possuem essa propriedade, mesmo quando sabemos que a hipótese nula é verdadeira.

Isso acontece porque escolhemos as variáveis ​​que possuem ou tendem a ter pequenos valores de p (dependendo dos critérios precisos que usamos). Isso significa que os valores p das variáveis ​​deixadas no modelo são tipicamente muito menores do que seriam se tivéssemos ajustado um único modelo. Observe que, em média, a seleção selecionará modelos que parecem se encaixar ainda melhor que o modelo real, se a classe de modelos incluir o modelo verdadeiro ou se a classe de modelos for flexível o suficiente para aproximar o modelo real.

[Além disso, e basicamente pelo mesmo motivo, os coeficientes restantes são desviados de zero e seus erros padrão são desviados baixos; isso, por sua vez, também afeta os intervalos de confiança e as previsões - nossas previsões serão muito estreitas, por exemplo.]

Para ver esses efeitos, podemos fazer uma regressão múltipla em que alguns coeficientes são 0 e outros não, executar um procedimento passo a passo e, em seguida, para os modelos que contêm variáveis ​​com zero coeficiente, observe os valores de p resultantes.

(Na mesma simulação, é possível examinar as estimativas e os desvios padrão dos coeficientes e descobrir os que correspondem a coeficientes diferentes de zero também são afetados.)

Em resumo, não é apropriado considerar os valores-p usuais como significativos.

Ouvi dizer que se deve considerar todas as variáveis ​​deixadas no modelo como significativas.

Quanto à questão de saber se todos os valores no modelo após o passo a passo devem ser 'considerados significativos', não tenho certeza até que ponto essa é uma maneira útil de analisá-lo. O que "significado" pretende significar então?


Aqui está o resultado da execução de Rs stepAICcom configurações padrão em 1000 amostras simuladas com n = 100 e dez variáveis ​​candidatas (nenhuma delas relacionada à resposta). Em cada caso, o número de termos restantes no modelo foi contado:

insira a descrição da imagem aqui

Apenas 15,5% das vezes foi escolhido o modelo correto; no restante do tempo, o modelo incluía termos que não eram diferentes de zero. Se for realmente possível que existam variáveis ​​com coeficiente zero no conjunto de variáveis ​​candidatas, é provável que tenhamos vários termos em que o coeficiente verdadeiro é zero em nosso modelo. Como resultado, não está claro que é uma boa ideia considerar todos eles como diferentes de zero.


Com a frase "Ouvi dizer que se deve considerar todas as variáveis ​​deixadas no modelo como significativas", eu quis dizer: "Ouvi dizer que todas as variáveis ​​deixadas no modelo são consideradas como tendo um coeficiente de regressão verdadeiro, em vez de uma forma diferente de zero"
João M

OK; Adicionei os resultados de uma simulação que fala disso.
Glen_b -Reinstala Monica 3/11

10
k=339.10k

7
@whuber, de fato, ver qual o efeito que um Bonferroni teria (em vários aspectos do problema) foi minha inclinação imediata para concluir a simulação acima também, mas não é o que as pessoas realmente tendem a fazer com o stepwise, por isso não resolvi aqui. Ficaria fascinado em ouvi-lo discutir métodos de seleção de modelos. Espero aprender um pouco.
Glen_b -Reinstate Monica

@Glen_b: (citado em sua resposta) Isso significa que os valores p das variáveis ​​deixadas no modelo são tipicamente muito menores do que seriam se tivéssemos montado um único modelo, mesmo que "se o único modelo que ajustamos fosse aquele que gerou os dados, se o modelo verdadeiro é nulo ou não ". Você pode explicar um pouco a parte destacada? Como é possível que os valores-p sejam menores no modelo que possui a mesma especificação que o processo de geração de dados (modelo verdadeiro)?
Shani

8

tFp-1,n-p-1Fq-1,n-q-1q<pF

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.