Meu entendimento é que, com a validação cruzada e a seleção de modelos, tentamos abordar duas coisas:
P1 . Estimar a perda esperada na população ao treinar com nossa amostra
P2 . Medir e relatar nossa incerteza em relação a essa estimativa (variação, intervalos de confiança, viés etc.)
A prática padrão parece ser a validação cruzada repetida, pois isso reduz a variação do nosso estimador.
No entanto, quando se trata de relatórios e análises, entendo que a validação interna é melhor que a validação externa porque:
É melhor relatar:
- As estatísticas do nosso estimador, por exemplo, seu intervalo de confiança, variância, média etc. na amostra completa (neste caso, a amostra CV).
do que os relatórios:
A perda de nosso estimador em um subconjunto de espera da amostra original, pois:
(i) Essa seria uma medida única ( mesmo se escolhermos nosso estimador com CV )
(ii) Nosso estimador para essa medição única teria sido treinado em um conjunto (por exemplo, o conjunto de CV) que é menor que a nossa amostra inicial, pois precisamos abrir espaço para o conjunto de espera. Isso resulta em uma estimativa mais tendenciosa (pessimista) em P1 .
Isso está correto? Se não, por quê?
Fundo:
É fácil encontrar livros que recomendam dividir sua amostra em dois conjuntos:
- O conjunto de CV , que é subsequente e repetidamente dividido em conjuntos de treinamento e validação .
- O conjunto de espera (teste), usado apenas no final para relatar o desempenho do estimador
Minha pergunta é uma tentativa de entender os méritos e as vantagens dessa abordagem, considerando que nosso objetivo é realmente abordar os problemas P1 e P2 no início deste post. Parece-me que relatar o conjunto de testes de retenção é uma prática ruim, pois a análise da amostra do CV é mais informativa.
Dobra K aninhada vs dobra K repetida:
Em princípio, pode-se combinar o afastamento com a dobra K regular para obter uma dobra K aninhada . Isso nos permitiria medir a variabilidade de nosso estimador, mas parece-me que, para o mesmo número de modelos totais treinados (número total de dobras) dobras K repetidas, produziria estimadores menos tendenciosos e mais precisos que o K- aninhado dobra. Para ver isso:
- A dobra K repetida usa uma fração maior da nossa amostra total do que a dobra K aninhada para o mesmo K (ou seja, leva a um viés menor)
- 100 iterações dariam apenas 10 medidas do nosso estimador na dobra K aninhada (K = 10), mas 100 medidas na dobra K (mais medidas levam a uma menor variação no P2 )
O que há de errado com esse raciocínio?