Escolhendo o número K dobra considerando a curva de aprendizado
Eu gostaria de argumentar que a escolha do número apropriado de dobras depende muito da forma e posição da curva de aprendizado, principalmente devido ao seu impacto no viés . Esse argumento, que se estende ao CV não incluído, é amplamente retirado do livro "Elements of Statistical Learning", capítulo 7.10, página 243.K
Para discussões sobre o impacto de na variação, veja aquiK
Resumindo, se a curva de aprendizado tem uma inclinação considerável no tamanho do conjunto de treinamento, a validação cruzada de cinco a dez vezes superestima o verdadeiro erro de previsão. Se esse viés é uma desvantagem na prática, depende do objetivo. Por outro lado, a validação cruzada de exclusão única apresenta viés baixo, mas pode ter alta variação.
Uma visualização intuitiva usando um exemplo de brinquedo
Para entender esse argumento visualmente, considere o seguinte exemplo de brinquedo em que estamos ajustando um polinômio de grau 4 a uma curva senoidal ruidosa:
Intuitivamente e visualmente, esperamos que este modelo seja mal para pequenos conjuntos de dados devido ao sobreajuste. Esse comportamento é refletido na curva de aprendizado em que plotamos Erro médio quadrático versus tamanho do treinamento, juntamente com o desvio padrão 1. Observe que eu escolhi plotar 1 - MSE aqui para reproduzir a ilustração usada na ESL página 243±1−±
Discutindo o argumento
O desempenho do modelo melhora significativamente à medida que o tamanho do treinamento aumenta para 50 observações. Aumentar o número para 200, por exemplo, traz apenas pequenos benefícios. Considere os dois casos a seguir:
Se nosso conjunto de treinamento tivesse 200 observações, a validação cruzada de vezes estimaria o desempenho em um tamanho de treinamento de 160 que é praticamente o mesmo que o desempenho para o tamanho de conjunto de treinamento 200. Portanto, a validação cruzada não sofrerá muito viés e aumentará para valores maiores não trarão muitos benefícios ( gráfico à esquerda )K5K
No entanto, se o conjunto de treinamento tivesse observações, a validação cruzada de vezes estimaria o desempenho do modelo em relação aos conjuntos de treinamento do tamanho 40 e, a partir da curva de aprendizado, isso levaria a um resultado tendencioso. Portanto, aumentar neste caso tenderá a reduzir o viés. ( gráfico à direita ).5 K505K
[Update] - Comentários sobre a metodologia
Você pode encontrar o código para esta simulação aqui . A abordagem foi a seguinte:
- Gere 50.000 pontos a partir da distribuição onde a verdadeira variação de é conhecidaϵsin(x)+ϵϵ
- Iterar vezes (por exemplo, 100 ou 200 vezes). A cada iteração, altere o conjunto de dados reamostrando pontos da distribuição originalNiN
- Para cada conjunto de dados :
i
- Execute a validação cruzada da dobra K para um valor deK
- Armazene o erro médio quadrado médio (MSE) nas dobras em K
- Quando o loop over estiver concluído, calcule a média e o desvio padrão do MSE nos conjuntos de dados para o mesmo valor dei KiiK
- Repita as etapas acima para todos os no intervalo até LOOCV{ 5 , . . . , N }K{5,...,N}
Uma abordagem alternativa é não reanalisar um novo conjunto de dados a cada iteração e, em vez disso, reorganizar o mesmo conjunto de dados a cada vez. Isso parece dar resultados semelhantes.