Teste de significância ou validação cruzada?

20

Duas abordagens comuns para a seleção de variáveis correlacionadas são testes de significância e validação cruzada. Que problema cada um tenta resolver e quando eu preferiria um ao outro?

cross-validation feature-selection

— JohnRos
fonte

22

Primeiro, vamos ser explícitos e colocar a questão no contexto da regressão linear múltipla, onde regridem uma variável de resposta, , em várias variáveis diferentes (correlacionadas ou não), com o vetor de parâmetro e função de regressão que pode ser um modelo da média da variável de resposta para uma determinada observação de . $y$ $x_1, \ldots, x_p$ $\beta = (\beta_0, \beta_1, \ldots, \beta_p)$

f (x_{1}, \dots, x_{p}) = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p},

$f(x_1, \ldots, x_p) = \beta_0 + \beta_1 x_1 + \ldots + \beta_p x_p,$

x_{1}, \dots, x_{p}

$x_1, \ldots, x_p$

A questão é como selecionar um subconjunto dos como diferente de zero e, em particular, uma comparação entre teste de significância e validação cruzada . $\beta_i$

Para ser claro sobre a terminologia, o teste de significância é um conceito geral, realizado de maneira diferente em diferentes contextos. Depende, por exemplo, da escolha de uma estatística de teste. A validação cruzada é realmente um algoritmo para estimativa do erro de generalização esperado , que é o conceito geral importante e que depende da escolha de uma função de perda.

O erro de generalização esperado é um pouco técnico para definir formalmente, mas em palavras é a perda esperada de um modelo ajustado quando usado para previsão em um conjunto de dados independente , em que a expectativa está acima dos dados utilizados para a estimativa e dos dados independentes conjunto usado para previsão.

Para fazer uma comparação razoável, vamos focar se pode ser considerado igual a 0 ou não. $\beta_1$

Para o teste de significância da hipótese nula que o procedimento principal é calcular um valor , que é a probabilidade de a estatística de teste escolhida ser maior que a observada para nosso conjunto de dados sob a hipótese nula , ou seja, quando assumindo que . A interpretação é que um pequeno valor é evidência contra a hipótese nula. Existem regras comumente usadas para o que "pequeno" significa em um sentido absoluto, como os famosos níveis de significância de 0,05 ou 0,01. $\beta_1 = 0$ $p$ $\beta_1 = 0$ $p$
Para o erro de generalização esperado , calculamos, talvez usando a validação cruzada, uma estimativa do erro de generalização esperado sob a suposição de que . Essa quantidade nos diz como os modelos ajustados pelo método que usamos e com terão desempenho médio quando usados para previsão em dados independentes. Um grande erro de generalização esperado é ruim, mas não há regras em termos de seu valor absoluto sobre o tamanho necessário para ser ruim. Teremos que estimar o erro de generalização esperado para o modelo em que também pode ser diferente de 0 e, em seguida, podemos comparar os dois erros estimados. O que for menor, corresponde ao modelo que escolhemos. $\beta_1 = 0$ $\beta_1 = 0$ $\beta_1$

Usando significado testando não estamos directamente envolvidos com a "performance" do modelo sob a hipótese nula em relação a outros modelos, mas estão preocupados com a documentação que o nulo é errado. Isso faz mais sentido (para mim) em uma configuração confirmatória em que o objetivo principal é confirmar e documentar uma hipótese científica a bem especificada, que pode ser formulada como . $\beta_1 \neq 0$

$\beta_1$ $\beta_1$ $-$

$p$ $p$

$p$ $p$ $\beta_1$ $\beta_1$

— NRH
fonte

17

O simples uso de testes de significância e um procedimento passo a passo para executar a seleção de modelos pode levar você a acreditar que possui um modelo muito forte com preditores significativos quando, na verdade, não possui; você pode obter correlações fortes por acaso e essas correlações aparentemente podem ser aprimoradas à medida que você remove outros preditores desnecessários.

O procedimento de seleção, é claro, mantém apenas as variáveis com as correlações mais fortes com o resultado e, à medida que o procedimento passo a passo avança, a probabilidade de cometer um erro do Tipo I se torna maior do que você imagina. Isso ocorre porque os erros padrão (e, portanto, os valores de p) não são ajustados para levar em conta o fato de que as variáveis não foram selecionadas para inclusão no modelo aleatoriamente e vários testes de hipóteses foram conduzidos para escolher esse conjunto.

David Freedman tem um artigo fofo no qual ele demonstra esses pontos chamados " Uma nota sobre a seleção de equações de regressão ". O resumo:

$R^2$ $R^2$

Uma solução potencial para esse problema, como você mencionou, está usando uma variante de validação cruzada. Quando não tenho uma boa razão econômica (minha área de pesquisa) ou estatística para acreditar no meu modelo, essa é minha abordagem preferida para selecionar um modelo apropriado e realizar inferência.

Outros entrevistados podem mencionar que os procedimentos passo a passo usando o AIC ou o BIC são assintoticamente equivalentes à validação cruzada. Isso funciona apenas quando o número de observações em relação ao número de preditores aumenta, no entanto. No contexto de ter muitas variáveis relativas ao número de observações (Freedman diz 1 variável por 10 ou menos observações), a seleção dessa maneira pode exibir as más propriedades discutidas acima.

Na era dos computadores poderosos, não vejo motivo para não usar a validação cruzada como procedimento de seleção de modelo em vez de seleção gradual.

— Charlie
fonte

Você poderia fornecer uma referência para procedimentos passo a passo usando o AIC ou o BIC que são assintoticamente equivalentes à validação cruzada ? Eu li sobre a equivalência de AIC / BIC para validação cruzada, mas não em uma configuração gradual.

— Richard Hardy