Uma diferença importante da maneira usual de validação cruzada e métodos fora do bootstrap são aplicados é que a maioria das pessoas aplica a validação cruzada apenas uma vez (ou seja, cada caso é testado exatamente uma vez), enquanto a validação fora do bootstrap é realizada com um grande número de repetições / iterações. Nessa situação, a validação cruzada está sujeita a uma variação maior devido à instabilidade do modelo. No entanto, isso pode ser evitado usando, por exemplo, validação cruzada repetida / repetida . Se isso for feito, pelo menos para os conjuntos de dados espectroscópicos com os quais estou trabalhando, o erro total de ambos os esquemas de reamostragem parece ser o mesmo na prática.k
A validação cruzada de deixar um fora é desencorajada, pois não há possibilidade de reduzir a variação do tipo instabilidade do modelo e existem alguns classificadores e problemas nos quais ele exibe um grande viés pessimista.
O bootstrap .632 faz um trabalho razoável, desde que o erro de reamostragem misturado não seja muito otimista. (Por exemplo, para os dados com os quais trabalho, matrizes muito amplas com muitas variáveis, isso não funciona muito bem, pois os modelos são propensos a sobreajuste grave). Isso significa também que eu evitaria usar a inicialização .632 para comparar modelos de complexidade variável. Com o .632+ bootstrap, não tenho experiência: se o overfitting acontecer e for detectado corretamente, será igual à estimativa original do bootstrap, por isso continuo com validação cruzada simples ou repetida / repetida para meus dados.
Literatura:
- Kohavi, R .: Um Estudo de Validação Cruzada e Bootstrap para Processos de Inteligência Artificial para Estimativa de Precisão e Seleção de Modelo 14ª Conferência Conjunta Internacional, 20 - 25. Agosto de 1995, Montreal, Québec, Canadá, 1995, 1137 - 1145.
(um clássico )
Dougherty e Braga-Neto têm várias publicações sobre o tema , por exemplo
Escolha da métrica:
A precisão (da qual @FrankHarrell dirá que é uma má escolha, pois não é uma regra de pontuação adequada ) está sujeita a alta variação, pois considera cada caso como completamente correto ou completamente incorreto, mesmo se o classificador previsse, por exemplo, apenas 60 % de probabilidade posterior para o caso de teste pertencer à classe em questão. Uma regra de pontuação adequada é, por exemplo, a pontuação de Brier, que está intimamente relacionada ao erro quadrático médio na regressão.
O erro quadrático médio analoga está disponível para proporções como precisão, sensibilidade, especificidade, valores preditivos: Beleites, C. et al. : Validação de modelos de classificação suave usando associações parciais de classe: Um conceito estendido de sensibilidade & Co. aplicado à classificação de tecidos de astrocitoma, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (página de resumo que também fornece link para pré-impressão)
Meu objetivo final é poder dizer com alguma confiança que um método de aprendizado de máquina é superior a outro para um conjunto de dados específico.
Use um teste emparelhado para avaliar isso. Para comparar proporções, dê uma olhada no teste de McNemar.
A resposta para isso será afetada pela escolha da métrica. Como as medidas de erro do tipo regressão não têm a etapa de "endurecimento" de cortar decisões com um limite, elas geralmente têm menos variação do que suas contrapartes de classificação. Métricas como precisão, que são basicamente proporções, precisarão de um grande número de casos de teste para estabelecer a superioridade de um classificador em relação a outro.
Fleiss: "Métodos estatísticos para taxas e proporções" fornece exemplos (e tabelas) para comparação não proporcional de proporções. Para lhe dar uma impressão do que quero dizer com "tamanhos enormes de amostras", dê uma olhada na imagem na minha resposta a essa outra pergunta . Testes pareados como o de McNemar precisam de menos casos de teste, mas o IIRC ainda está no melhor dos casos metade (?) Do tamanho da amostra necessário para o teste não emparelhado.
Para caracterizar o desempenho de um classificador (reforçado), você geralmente precisa de uma curva de trabalho de pelo menos dois valores, como o ROC (sensibilidade versus especificidade) ou algo semelhante.
Raramente uso precisão total ou AUC, pois meus aplicativos geralmente têm restrições, por exemplo, que a sensibilidade é mais importante que a especificidade ou que certos limites dessas medidas devem ser atendidos. Se você optar pelas características de soma de "número único", verifique se o ponto de trabalho dos modelos que você está vendo está realmente em uma faixa sensata.
Para precisão e outras medidas de desempenho que resumem o desempenho de várias classes de acordo com os rótulos de referência, leve em consideração a frequência relativa das classes que você encontrará no aplicativo - o que não é necessariamente o mesmo que no seu dados de treinamento ou teste.
Provost, F. et al. : O Caso Contra Estimativa de Precisão para Comparação de Algoritmos de Indução em Procedimentos da Décima Quinta Conferência Internacional sobre Aprendizado de Máquina, 1998
editar: comparando vários classificadores
Estou pensando nesse problema há algum tempo, mas ainda não cheguei a uma solução (nem conheci ninguém que tivesse uma solução).
Aqui está o que eu tenho até agora:
No momento, decidi que "a otimização é a raiz de todo mal" e, em vez disso, adote uma abordagem muito diferente:
decido o máximo possível com conhecimento especializado sobre o problema em questão. Isso na verdade permite restringir bastante as coisas, para que eu possa evitar a comparação de modelos. Quando tenho que comparar modelos, tento ser muito aberto e claro, lembrando as pessoas sobre a incerteza da estimativa de desempenho e que a comparação de modelos particularmente múltiplos é AFAIK ainda é um problema não resolvido.
Edição 2: testes emparelhados
n1 12( n2- n )do teste refere-se apenas ao fato de que, como todos os modelos são testados exatamente com os mesmos casos de teste, é possível dividir os casos em casos "fáceis" e "difíceis", por um lado, para os quais todos os modelos chegam a um correto (ou errado) previsão. Eles não ajudam a distinguir entre os modelos. Por outro lado, existem casos "interessantes" que são previstos corretamente por alguns, mas não por outros modelos. Somente esses casos "interessantes" precisam ser considerados para julgar a superioridade, nem os casos "fáceis" nem os "difíceis" ajudam com isso. (É assim que eu entendo a idéia por trás do teste de McNemar).
nn