As competições da Kaggle determinam a classificação final com base em um conjunto de testes realizado.
Um conjunto de teste retido é uma amostra; pode não ser representativo da população que está sendo modelada. Como cada envio é como uma hipótese, o algoritmo que venceu a competição pode, por acaso, ter acabado igualando o conjunto de testes melhor que os outros. Em outras palavras, se um conjunto de testes diferente fosse selecionado e a competição repetida, os rankings permaneceriam os mesmos?
Para a empresa patrocinadora, isso realmente não importa (provavelmente os 20 principais envios melhorariam sua linha de base). Embora, ironicamente, eles possam acabar usando um modelo de primeira classificação pior do que os outros cinco primeiros. Mas, para os participantes da competição, parece que o Kaggle é, em última análise, um jogo de azar - não é necessário ter sorte para encontrar a solução certa, é preciso encontrar aquele que corresponde ao teste!
É possível mudar a competição para que todos os melhores times que não podem ser distinguidos estatisticamente ganhem? Ou, nesse grupo, o modelo mais parcimonioso ou computacionalmente barato poderia ganhar?