Estou comparando o desempenho de vários algoritmos em vários conjuntos de dados. Como não é garantido que essas medidas de desempenho sejam distribuídas normalmente, escolhi o Teste de Friedman com o teste post-hoc de Nemenyi, com base em Demšar (2006) .
Encontrei outro artigo que, além de sugerir outros métodos, como o teste Quade com o teste post-hoc subsequente de Shaffer, eles aplicam o teste de Nemenyi de maneira diferente.
Como aplico o teste post-hoc da Nemenyi corretamente?
1. Usando a estatística do intervalo Studentized?
No artigo de Demšar, ele diz para rejeitar a hipótese nula (sem diferença de desempenho de dois algoritmos) se a diferença de classificação média for maior que a distância crítica CD com
"onde os valores críticos qα são baseados na estatística do intervalo Studentized dividida por "
Após algumas pesquisas, descobri que esses "valores críticos" podem ser consultados para determinados alfas, por exemplo, em uma tabela para , para graus infinitos de liberdade (na parte inferior de cada tabela).
2. ou usando a distribuição normal?
Quando pensei que sabia o que fazer, encontrei outro artigo que me confundiu novamente, porque eles estavam apenas usando a distribuição normal. Demšar está afirmando algo semelhante na página 12:
As estatísticas de teste para comparar o i-ésimo j-ésimo classificador usando esses métodos são O valor z é usado para encontrar a probabilidade correspondente da tabela de distribuição normal, que é então comparada com um apropriado . Os testes diferem na maneira como ajustam o valor de para compensar várias comparações.
Neste parágrafo, ele estava falando sobre a comparação de todos os algoritmos com um algoritmo de controle, mas a observação "difere na maneira como eles se ajustam ... para compensar múltiplas comparações" sugere que isso também deve valer para o teste de Nemenyi.
Então, o que me parece lógico é calcular o valor de p com base na estatística de teste , que é normalmente distribuída, e corrigi-la dividindo por .
No entanto, isso gera diferenças de classificação completamente diferentes nas quais rejeitar a hipótese nula. E agora estou preso e não sei qual método aplicar. Estou fortemente inclinado a usar a distribuição normal , porque é mais simples e mais lógico para mim. Também não preciso procurar valores nas tabelas e não estou vinculado a determinados valores de significância.
Por outro lado, nunca trabalhei com a estatística de faixa estudada e não a entendo.