Quando são aplicáveis ​​os resultados de Shao na validação cruzada de exclusão única?


22

Em seu artigo Seleção de modelo linear por validação cruzada , Jun Shao mostra que, para o problema de seleção de variáveis ​​na regressão linear multivariada, o método de validação cruzada de sobreaquecimento (LOOCV) é 'assintoticamente inconsistente'. Em inglês simples, ele tende a selecionar modelos com muitas variáveis. Em um estudo de simulação, Shao mostra que, mesmo com apenas 40 observações, o LOOCV pode ter um desempenho inferior a outras técnicas de validação cruzada.

Este artigo é um tanto controverso e um pouco ignorado (10 anos após sua publicação, meus colegas de quimiometria nunca ouviram falar dele e estavam felizes em usar LOOCV para seleção de variáveis ​​...). Também há uma crença (eu sou culpado disso), de que seus resultados se estendem um pouco além do escopo limitado original.

A questão, então: até que ponto esses resultados se estendem? Eles são aplicáveis ​​aos seguintes problemas?

  1. Seleção de variáveis ​​para regressão logística / GLM?
  2. Seleção de variáveis ​​para a classificação Fisher LDA?
  3. Seleção de variáveis ​​usando SVM com espaço finito (ou infinito) de kernel?
  4. Comparação de modelos na classificação, digamos SVM usando diferentes kernels?
  5. Comparação de modelos em regressão linear, digamos, comparando MLR com regressão de Ridge?
  6. etc.

Deve haver algo nos livros de quimiometria; o único homem que conheço que usa LOO também está fazendo isso.

Respostas:


14

Você precisa especificar o objetivo do modelo antes de poder dizer se os resultados de Shao são aplicáveis. Por exemplo, se o objetivo é previsão, LOOCV faz sentido e a inconsistência da seleção de variáveis ​​não é um problema. Por outro lado, se o objetivo é identificar as variáveis ​​importantes e explicar como elas afetam a variável de resposta, os resultados de Shao são obviamente importantes e o LOOCV não é apropriado.

A AIC é assintoticamente LOOCV e BIC é assintoticamente equivalente a um deixar- -out CV onde --- o resultado BIC apenas para modelos lineares. Portanto, o BIC oferece uma seleção consistente de modelos. Portanto, um resumo resumido do resultado de Shao é que o AIC é útil para previsão, mas o BIC é útil para explicação.v = n [ 1 - 1 / ( log ( n ) - 1 ) ]vv=n[11/(log(n)1)]


1
Acredito que Shao mostrou que o CV com dobra em k é inconsistente se é corrigido enquanto cresce. nkn
Shabbychef #

1
O BIC tem k crescendo com n.
Rob Hyndman

1
Silenciosamente, lembrarei que a correspondência * IC <--> * CV do papel Shao funciona apenas para modelos lineares, e o BIC é equivalente apenas ao CV k-fold com certo k.

Na verdade, acredito que Shao mostra que o CV é inconsistente, a menos que como , em que seja o número de amostras no conjunto de testes. Assim, o CV com vezes é sempre inconsistente para a seleção de variáveis. Eu entendi errado? Por CV vezes quero dizer dividir a amostra em grupos e treinar em deles e testar em 1 deles, repetindo vezes. Então para fold CV, que nunca se aproxima de 1. #nv/n1n v k k k k - 1 k n v / n = 1 / k kninfnvkkkk1knv/n=1/kk
shabbychef

3
@mbq: Não - a prova AIC / LOO de Stone 1977 não assume modelos lineares. Por esse motivo, diferentemente do resultado de Shao, é amplamente citado; veja, por exemplo, os capítulos de seleção de modelos no EOSL ou no Handbook of Computational Statistics, ou realmente qualquer bom capítulo / artigo sobre seleção de modelos. É apenas um pouco mais do que uma página e vale a pena ler, porque é um pouco interessante a maneira como ele evita ter que calcular as informações / Pontuação de Fisher para obter o resultado.
ars

7

Este artigo é um tanto controverso e um pouco ignorado

Na verdade, não é bem visto no que diz respeito à teoria da seleção de modelos, embora certamente seja mal interpretada. A verdadeira questão é quão relevante é para a prática de modelagem na natureza. Suponha que você execute as simulações para os casos que propõe investigar e determine que o LOOCV é realmente inconsistente. A única razão pela qual você entenderia isso é porque você já conhecia o modelo "true" e, portanto, pode determinar que a probabilidade de recuperar o modelo "true" não converge para 1. Para modelar em ambiente selvagem, com que frequência isso é verdade ( que os fenômenos são descritos por modelos lineares e o modelo "verdadeiro" é um subconjunto daqueles em consideração)?

O artigo de Shao é certamente interessante para avançar no arcabouço teórico. Ele ainda fornece alguma clareza: se o modelo "verdadeiro" está de fato em consideração, temos os resultados de consistência em que podemos usar. Mas não tenho certeza de quão interessantes serão as simulações reais para os casos que você descreve. É por isso que a maioria dos livros como EOSL não se concentra tanto no resultado de Shao, mas no erro de predição / generalização como critério para a seleção de modelos.

EDIT: A resposta muito curta à sua pergunta é: Os resultados de Shao são aplicáveis ​​quando você está executando uma estimativa de mínimos quadrados, função de perda quadrática. Não é mais amplo. (Acho que houve um artigo interessante de Yang (2005?) Que investigou se você poderia ter consistência e eficiência, com uma resposta negativa.)


Não acho relevante se conheço o verdadeiro modelo na natureza. Se houver um modelo "verdadeiro", eu preferiria um método com maior probabilidade de encontrá-lo.
precisa saber é o seguinte

2
@shabbychef: Eu não discordo. Mas observe: "Se existe um modelo 'verdadeiro'" e está sendo considerado ... como você saberia isso a priori?
ars

1
Observe também que meu segundo parágrafo, na verdade, ressalta o seu comentário. Essa é uma propriedade legal, mas não está claro como é aplicável na natureza; mesmo que seja reconfortante, em certo sentido, pode estar errado.
Ars

2
@ars - observe que a "linearidade" do modelo 'true' não é a única maneira de recuperar o modelo 'true' de um modelo linear. Se o componente não linear do modelo "verdadeiro" puder ser bem modelado pelo termo ruído (por exemplo, efeitos não lineares tendem a se anular), poderíamos razoavelmente chamar o modelo linear de "verdadeiro", eu acho. Isso é semelhante ao assumir que o restante de uma série linear de taylor é desprezível.
probabilityislogic

1
Assim, você pode re-declarar os resultados da seguinte forma: se houver uma aproximação linear razoável da realidade, o BIC / leave- -out sempre encontrará essa aproximação. AIC / deixar um fora não o encontrará consistentemente. v
probabilityislogic

6

Eu diria: em todo lugar, mas não vi uma prova estrita disso. A intuição subjacente é tal que, ao fazer CV, é preciso manter um equilíbrio entre o trem grande o suficiente para criar um modelo sensato e testar o suficiente, para que seja uma referência sensata.
Ao lidar com milhares de objetos bastante homogêneos, escolher um deles está relacionado ao risco de que ele seja bastante semelhante a outro objeto que foi deixado no conjunto - e os resultados seriam otimistas demais.
Por outro lado, no caso de poucos objetos, não haverá diferença vital entre LOO e k-fold; é apenas e não podemos fazer nada com isso.110/101


Além das provas, estou me perguntando se houve estudos de simulação de qualquer um dos cinco casos que listo, por exemplo.
21810 shabbychef

Quer fazer um pouco?

2
Eu faço; No entanto, vou ter que aprender muito mais R para compartilhar os resultados aqui.
21810 shabbychef

1
@shabbychef: já conseguiu fazer isso? E, a propósito, se você ainda está contando quimiometristas que usam ou não CV para seleção de variáveis, pode contar comigo do lado daqueles que se recusam a fazê-lo, porque a) eu ainda não tinha dados reais configurada com casos (amostras) suficientes para permitir até mesmo uma comparação de um modelo eb) para meus dados espectroscópicos, as informações relevantes geralmente são "manchadas" em grandes partes do espectro, então prefiro a regularização que não faz uma seleção de variáveis ​​rígidas.
Cbeleites suporta Monica

1

1) A resposta de @ars menciona Yang (2005): "Os pontos fortes da AIC e da BIC podem ser compartilhados?" . Em termos gerais, parece que não é possível que um critério de seleção de modelo atinja a consistência (tendem a escolher o modelo correto, se existe realmente um modelo correto e ele está entre os modelos sendo considerados) e a eficiência (atinja a média mais baixa erro quadrático em média entre os modelos que você escolheu). Se você tende a escolher o modelo certo, em média, às vezes você obtém modelos um pouco pequenos demais ... mas, muitas vezes, perdendo um preditor real, é pior em termos de MSE do que alguém que sempre inclui alguns preditores espúrios.

Portanto, como dito anteriormente, se você se preocupa mais em fazer boas previsões do que em obter as variáveis ​​exatamente corretas, é bom continuar usando LOOCV ou AIC.

2) Mas eu também queria destacar outros dois artigos: Yang (2006) "Comparando Métodos de Aprendizagem para Classificação" e Yang (2007) "Consistência da Validação Cruzada para Comparação de Procedimentos de Regressão" . Esses documentos mostram que você não precisa da proporção de dados de treinamento para testes para chegar a 0 se estiver comparando modelos que convergem em taxas mais lentas do que os modelos lineares.

Portanto, para responder suas perguntas originais de 1 a 6 mais diretamente: Os resultados de Shao se aplicam ao comparar modelos lineares entre si. Seja para regressão ou classificação, se você estiver comparando modelos não paramétricos que convergem em uma taxa mais lenta (ou mesmo comparando um modelo linear com um modelo não paramétrico), é possível usar a maioria dos dados para treinamento e ainda ter um CV consistente com a seleção de modelos. .. mas ainda assim, Yang sugere que o LOOCV é muito extremo.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.