Respostas:
Primeiro, vamos ser explícitos e colocar a questão no contexto da regressão linear múltipla, onde regridem uma variável de resposta, , em várias variáveis diferentes (correlacionadas ou não), com o vetor de parâmetro e função de regressão
que pode ser um modelo da média da variável de resposta para uma determinada observação de . x 1 , … , x p β = ( β 0 , β 1 , … , β p ) f ( x 1 , … , x p ) = β 0 + β 1 x 1 + … + β p x p , x 1 , ... , x p
A questão é como selecionar um subconjunto dos como diferente de zero e, em particular, uma comparação entre teste de significância e validação cruzada .
Para ser claro sobre a terminologia, o teste de significância é um conceito geral, realizado de maneira diferente em diferentes contextos. Depende, por exemplo, da escolha de uma estatística de teste. A validação cruzada é realmente um algoritmo para estimativa do erro de generalização esperado , que é o conceito geral importante e que depende da escolha de uma função de perda.
O erro de generalização esperado é um pouco técnico para definir formalmente, mas em palavras é a perda esperada de um modelo ajustado quando usado para previsão em um conjunto de dados independente , em que a expectativa está acima dos dados utilizados para a estimativa e dos dados independentes conjunto usado para previsão.
Para fazer uma comparação razoável, vamos focar se pode ser considerado igual a 0 ou não.
Usando significado testando não estamos directamente envolvidos com a "performance" do modelo sob a hipótese nula em relação a outros modelos, mas estão preocupados com a documentação que o nulo é errado. Isso faz mais sentido (para mim) em uma configuração confirmatória em que o objetivo principal é confirmar e documentar uma hipótese científica a bem especificada, que pode ser formulada como .
O simples uso de testes de significância e um procedimento passo a passo para executar a seleção de modelos pode levar você a acreditar que possui um modelo muito forte com preditores significativos quando, na verdade, não possui; você pode obter correlações fortes por acaso e essas correlações aparentemente podem ser aprimoradas à medida que você remove outros preditores desnecessários.
O procedimento de seleção, é claro, mantém apenas as variáveis com as correlações mais fortes com o resultado e, à medida que o procedimento passo a passo avança, a probabilidade de cometer um erro do Tipo I se torna maior do que você imagina. Isso ocorre porque os erros padrão (e, portanto, os valores de p) não são ajustados para levar em conta o fato de que as variáveis não foram selecionadas para inclusão no modelo aleatoriamente e vários testes de hipóteses foram conduzidos para escolher esse conjunto.
David Freedman tem um artigo fofo no qual ele demonstra esses pontos chamados " Uma nota sobre a seleção de equações de regressão ". O resumo:
Uma solução potencial para esse problema, como você mencionou, está usando uma variante de validação cruzada. Quando não tenho uma boa razão econômica (minha área de pesquisa) ou estatística para acreditar no meu modelo, essa é minha abordagem preferida para selecionar um modelo apropriado e realizar inferência.
Outros entrevistados podem mencionar que os procedimentos passo a passo usando o AIC ou o BIC são assintoticamente equivalentes à validação cruzada. Isso funciona apenas quando o número de observações em relação ao número de preditores aumenta, no entanto. No contexto de ter muitas variáveis relativas ao número de observações (Freedman diz 1 variável por 10 ou menos observações), a seleção dessa maneira pode exibir as más propriedades discutidas acima.
Na era dos computadores poderosos, não vejo motivo para não usar a validação cruzada como procedimento de seleção de modelo em vez de seleção gradual.