Fico muito (e mais frequentemente) aborrecido com a "validação", com o objetivo de erro de generalização de modelos preditivos em que os dados do teste não são independentes (por exemplo, medições tipicamente múltiplas por paciente nos dados, medidas fora da inicialização ou separações de validação cruzada não pacientes ).
Documentos ainda mais irritantes, que fornecem resultados tão falhos de validação cruzada, mais um conjunto de testes independente que demonstra o viés super-otimista da validação cruzada, mas nem uma única palavra de que o design da validação cruzada está errado ...
(Ficaria perfeitamente feliz se os mesmos dados fossem apresentados "sabemos que a validação cruzada deve dividir os pacientes, mas estamos presos a um software que não permite isso. Portanto, testamos um conjunto verdadeiramente independente de pacientes em teste. ")
(Também sei que o bootstrapping = reamostragem com substituição geralmente tem um desempenho melhor do que a validação cruzada = reamostragem sem substituição. No entanto, encontramos dados espectroscópicos (espectros simulados e configuração de modelo levemente artificial, mas espectros reais) que repetiram / iteraram a validação cruzada e a saída -of-bootstrap teve uma incerteza geral semelhante; oob teve mais preconceito, mas menos variação - para revisar, estou analisando isso de uma perspectiva muito pragmática: validação cruzada repetida x out-of-bootstrap não importa, desde que muitos documentos não divida o paciente nem relate / discuta / mencione a incerteza aleatória devido ao tamanho limitado da amostra de teste.)
Além de estar errado, isso também tem o efeito colateral de que as pessoas que fazem uma validação adequada geralmente precisam defender por que seus resultados são muito piores do que todos os outros resultados da literatura.