Existem muitas situações em que você pode treinar vários classificadores diferentes ou usar vários métodos diferentes de extração de recursos. Na literatura, os autores geralmente fornecem o erro médio de classificação em um conjunto de divisões aleatórias dos dados (ou seja, após uma validação cruzada duplamente aninhada) e, às vezes, também apresentam variações no erro nas divisões. No entanto, isso por si só não é suficiente para dizer que um classificador é significativamente melhor que outro. Eu já vi muitas abordagens diferentes disso - usando testes qui-quadrado, teste t, ANOVA com testes post-hoc etc.
Que método deve ser usado para determinar a significância estatística? Subjacente a essa pergunta está: Que suposições devemos fazer sobre a distribuição das pontuações de classificação?