O placar privado do Kaggle é um bom indicador do desempenho fora da amostra do modelo vencedor?

Embora os resultados do conjunto de testes privado não possam ser usados para refinar ainda mais o modelo, a seleção de modelos não está sendo executada em um grande número de modelos com base nos resultados do conjunto de testes privados? Por esse processo, você não acabaria se adaptando ao conjunto de testes particulares?

De acordo com "Pseudo-Matemática e Charlatanismo Financeiro: Os Efeitos do Backtest Overfitting no Desempenho Fora da Amostra" por Bailey et.al. é relativamente fácil "superajustar" ao selecionar o melhor de um grande número de modelos avaliados no mesmo conjunto de dados. Isso não está acontecendo com a tabela de classificação privada do Kaggle?

Quais são as justificativas estatísticas para os modelos com melhor desempenho na tabela de classificação privada, sendo os modelos que generalizam os melhores para dados fora da amostra?
As empresas acabam realmente usando os modelos vencedores ou a tabela de classificação privada existe apenas para fornecer as "regras do jogo", e as empresas estão realmente mais interessadas na percepção que surge da discussão do problema?

model-selection overfitting out-of-sample

— rinspy
fonte

Um pouco relacionado: stats.stackexchange.com/q/235591

— Kodiologist

Você pode observar a diferença entre pontuações públicas e privadas. Pode-se argumentar que um modelo não equipado demais deve atingir desempenho semelhante nos dois conjuntos de dados.

— shadowtalker

@shadowtalker Essa seria realmente uma boa maneira de detectar o ajuste excessivo, mas o que realmente interessa é o poder preditivo fora da amostra do modelo, não o grau de ajuste excessivo. Um modelo de super ajuste - ou seja, que funciona muito melhor dentro da amostra do que fora da amostra - pode ter um desempenho fora da amostra melhor do que um modelo que não é super ajustado. Não tenho uma referência disponível, mas acredito que esse seja o caso em domínios complexos, como visão computacional, ao usar modelos complexos, como CNNs.

— Rinspy

Bem, os pontos que você apresenta são justos, no entanto, acho que há um problema muito mais real com as pessoas que se encaixam no ranking público .

Isso pode acontecer quando você faz mais ou menos 100 envios, o conjunto de testes públicos acabará sangrando para sua seleção de hiperparâmetro e, portanto, superajustado. Eu acho que a classificação privada é necessária a esse respeito.

— M Sef
fonte