Pergunta muito interessante, vou ter que ler os papéis que você dá ... Mas talvez isso nos inicie na direção de uma resposta:
Eu costumo lidar com esse problema de uma maneira muito pragmática: eu itero a validação cruzada k-fold com novas divisões aleatórias e calculo o desempenho da maneira usual para cada iteração. As amostras de teste gerais são as mesmas para cada iteração e as diferenças são provenientes de diferentes divisões dos dados.
Relato, por exemplo, como o 5º a 95º percentil do desempenho observado. trocando até amostras por novas amostras e discutindo-as como uma medida de instabilidade do modelo.nk−1
Nota: de qualquer maneira, não posso usar fórmulas que precisam do tamanho da amostra. Como meus dados são agrupados ou hierárquicos em estrutura (muitas medições semelhantes, mas não repetidas, do mesmo caso, geralmente várias [cem] localizações diferentes da mesma amostra), não sei o tamanho efetivo da amostra.
comparação ao bootstrapping:
as iterações usam novas divisões aleatórias.
a principal diferença é reamostrar com (bootstrap) ou sem (cv) substituição.
o custo computacional é praticamente o mesmo, pois eu escolheria nenhuma das iterações de cv no das iterações de autoinicialização / k, ou seja, calcule o mesmo número total de modelos.≈
O bootstrap tem vantagens sobre o cv em termos de algumas propriedades estatísticas (assintoticamente corretas, possivelmente você precisa de menos iterações para obter uma boa estimativa)
No entanto, com a CV, você tem a vantagem de ter a garantia de que
- o número de amostras de treinamento distintas é o mesmo para todos os modelos (importante se você deseja calcular curvas de aprendizado)
- cada amostra é testada exatamente uma vez em cada iteração
alguns métodos de classificação descartam amostras repetidas, portanto, a inicialização não faz sentido
Variação para o desempenho
resposta curta: sim, faz sentido falar de variação na situação em que existem apenas {0,1} resultados.
Veja a distribuição binomial (k = sucessos, n = testes, p = probabilidade verdadeira de sucesso = k / n médio):
σ2(k)=np(1−p)
A variação de proporções (como taxa de acerto, taxa de erro, sensibilidade, TPR, ..., usarei partir de agora e para o valor observado em um teste) é um tópico que preenche livros inteiros. .pp^
- Fleiss: Métodos Estatísticos para Taxas e Proporções
- Forthofer e Lee: Bioestatística tem uma boa introdução.
Agora, e, portanto:p^=kn
σ2(p^)=p(1−p)n
Isso significa que a incerteza para medir o desempenho do classificador depende apenas do desempenho real p do modelo testado e do número de amostras de teste.
Na validação cruzada, você assume
que os modelos k "substitutos" têm o mesmo desempenho verdadeiro que o modelo "real" que você normalmente constrói a partir de todas as amostras. (A quebra dessa suposição é o conhecido viés pessimista).
que os modelos "substitutos" k têm o mesmo desempenho verdadeiro (são equivalentes, têm previsões estáveis), portanto, você pode reunir os resultados dos testes k.
Obviamente, não apenas os modelos k "substitutos" de uma iteração de cv podem ser agrupados, mas os modelos ki de iterações de k-fold cv.
Por que iterar?
A principal coisa que as iterações dizem é a instabilidade do modelo (previsão), ou seja, variação das previsões de modelos diferentes para a mesma amostra.
Você pode relatar diretamente a instabilidade como, por exemplo, a variação na previsão de um determinado caso de teste, independentemente de a previsão estar correta ou um pouco mais indireta como a variação de para diferentes iterações de cv.p^
E sim, esta é uma informação importante.
Agora, se seus modelos forem perfeitamente estáveis, todo o ou produziria exatamente a mesma previsão para uma determinada amostra. Em outras palavras, todas as iterações teriam o mesmo resultado. A variação da estimativa não seria reduzida pela iteração (assumindo ). Nesse caso, a suposição 2 acima é atendida e você está sujeito apenas a sendo n o número total de amostras testadas em todas k dobras da cv.
Nesse caso, não são necessárias iterações (exceto para demonstrar estabilidade). k ⋅ n i t e r . c v n - 1 ≈ n σ 2 ( p ) = p ( 1 - P )nbootstrapk⋅niter. cvn−1≈nσ2(p^)=p(1−p)n
Você pode construir intervalos de confiança para o desempenho real partir do número de sucessos observados nos testes. Portanto, estritamente, não há necessidade de relatar a incerteza de variância se e forem relatados. No entanto, no meu campo, poucas pessoas estão cientes disso ou têm um controle intuitivo de quão grande é a incerteza com o tamanho da amostra. Então, eu recomendo denunciá-lo de qualquer maneira.k n p npknp^n
Se você observar a instabilidade do modelo, a média combinada é uma estimativa melhor do desempenho real. A variação entre as iterações é uma informação importante e você pode compará-la com a variação mínima esperada para um conjunto de testes de tamanho n com desempenho médio de desempenho real em todas as iterações.