Embora os resultados do conjunto de testes privado não possam ser usados para refinar ainda mais o modelo, a seleção de modelos não está sendo executada em um grande número de modelos com base nos resultados do conjunto de testes privados? Por esse processo, você não acabaria se adaptando ao conjunto de testes particulares?
De acordo com "Pseudo-Matemática e Charlatanismo Financeiro: Os Efeitos do Backtest Overfitting no Desempenho Fora da Amostra" por Bailey et.al. é relativamente fácil "superajustar" ao selecionar o melhor de um grande número de modelos avaliados no mesmo conjunto de dados. Isso não está acontecendo com a tabela de classificação privada do Kaggle?
- Quais são as justificativas estatísticas para os modelos com melhor desempenho na tabela de classificação privada, sendo os modelos que generalizam os melhores para dados fora da amostra?
- As empresas acabam realmente usando os modelos vencedores ou a tabela de classificação privada existe apenas para fornecer as "regras do jogo", e as empresas estão realmente mais interessadas na percepção que surge da discussão do problema?