Estou comparando o desempenho de vários algoritmos em vários conjuntos de dados. Como não é garantido que essas medidas de desempenho sejam distribuídas normalmente, escolhi o Teste de Friedman com o teste post-hoc de Nemenyi, com base em Demšar (2006) .

Encontrei outro artigo que, além de sugerir outros métodos, como o teste Quade com o teste post-hoc subsequente de Shaffer, eles aplicam o teste de Nemenyi de maneira diferente.

Como aplico o teste post-hoc da Nemenyi corretamente?

1. Usando a estatística do intervalo Studentized?

No artigo de Demšar, ele diz para rejeitar a hipótese nula (sem diferença de desempenho de dois algoritmos) se a diferença de classificação média for maior que a distância crítica CD com

C D = q_{α} \sqrt{\frac{k (k + 1)}{6 N}}

$CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}}$

"onde os valores críticos qα são baseados na estatística do intervalo Studentized dividida por " $\sqrt{2}.$

Após algumas pesquisas, descobri que esses "valores críticos" podem ser consultados para determinados alfas, por exemplo, em uma tabela para $\alpha = 0.05$ , para graus infinitos de liberdade (na parte inferior de cada tabela).

2. ou usando a distribuição normal?

Quando pensei que sabia o que fazer, encontrei outro artigo que me confundiu novamente, porque eles estavam apenas usando a distribuição normal. Demšar está afirmando algo semelhante na página 12:

As estatísticas de teste para comparar o i-ésimo j-ésimo classificador usando esses métodos são O valor z é usado para encontrar a probabilidade correspondente da tabela de distribuição normal, que é então comparada com um apropriado . Os testes diferem na maneira como ajustam o valor de para compensar várias comparações.
$z = \frac{(R_{i} - R_{j})}{\sqrt{\frac{k (k + 1)}{6 N}}}$ $z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}}$ $\alpha$ $\alpha$

Neste parágrafo, ele estava falando sobre a comparação de todos os algoritmos com um algoritmo de controle, mas a observação "difere na maneira como eles se ajustam ... para compensar múltiplas comparações" sugere que isso também deve valer para o teste de Nemenyi.

Então, o que me parece lógico é calcular o valor de p com base na estatística de teste , que é normalmente distribuída, e corrigi-la dividindo por . $z$ $k(k-1)/2$

No entanto, isso gera diferenças de classificação completamente diferentes nas quais rejeitar a hipótese nula. E agora estou preso e não sei qual método aplicar. Estou fortemente inclinado a usar a distribuição normal , porque é mais simples e mais lógico para mim. Também não preciso procurar valores nas tabelas e não estou vinculado a determinados valores de significância.

Por outro lado, nunca trabalhei com a estatística de faixa estudada e não a entendo.

nonparametric multiple-comparisons post-hoc

— Sentinela
fonte

5

Eu também comecei a olhar para esta pergunta.

Como mencionado anteriormente, quando usamos a distribuição normal para calcular valores de p para cada teste, esses valores de p não levam em consideração vários testes. Para corrigi-lo e controlar a taxa de erro familiar, precisamos de alguns ajustes. Bonferonni, ou seja, dividir o nível de significância ou multiplicar os valores-p brutos pelo número de testes, é apenas uma correção possível. Há um grande número de outras correções de valor p de vários testes que são, em muitos casos, menos conservadoras.

Essas correções de valor-p não levam em consideração a estrutura específica dos testes de hipótese.

Estou mais familiarizado com a comparação pareada dos dados originais, em vez dos dados transformados por classificação, como nos testes de Kruskal-Wallis ou Friedman. Nesse caso, que é o teste Tukey HSD, a estatística de teste para a comparação múltipla é distribuída de acordo com a distribuição de faixas estudadas, que é a distribuição de todas as comparações pareadas sob o pressuposto de amostras independentes. É baseado em probabilidades de distribuição normal multivariada que podem ser calculadas por integração numérica, mas geralmente são usadas em tabelas.

Meu palpite, como não conheço a teoria, é que a distribuição de faixa estudada pode ser aplicada ao caso de testes de classificação de maneira semelhante à das comparações Tukey HSD em pares.

Portanto, o uso de (2) distribuição normal mais correções de múltiplos valores de teste p e o uso de (1) distribuições de faixa estudadas são duas maneiras diferentes de obter uma distribuição aproximada das estatísticas de teste. No entanto, se as suposições para o uso da distribuição de faixa estudada forem atendidas, ela deverá fornecer uma melhor aproximação, pois foi projetada para o problema específico de todas as comparações em pares.

— Josef
fonte

1

Até onde eu sei, ao comparar apenas dois algoritmos, Demšar sugere o teste de classificação assinado por Wilcoxon em vez de Friedman + pós -oc. Infelizmente, estou tão confuso quanto você quando se trata de decifrar o que se supõe que dividir por k-1 significa demšar.

— 5xum
fonte

1

Dividir por (k-1) é quando você compara vários algoritmos com um método de controle. Mas isso é um contra cada um, então NxN. A parte divisória que eu posso entender, mas a relação com a distribuição da faixa Studentizada está além do meu entendimento.

— Sentry

@ Sentry: Você deve multiplicar com o fator de ajuste aqui, não multiplicando. Por favor, veja minha resposta acima.

— Chris

0

Também me deparei com a questão de calcular o valor-p a partir de uma distribuição t normal ou estudada. Infelizmente, ainda não consigo responder, porque papéis diferentes comunicam métodos diferentes.

No entanto, para calcular os valores de p ajustados, é necessário multiplicar o valor de p não corrigido pelo fator de ajuste, por exemplo, p * (k-1) no caso de comparações com um método de controle ou p * ((k * (k-1 )) / 2) para comparações nxn.

O que você deve dividir pelo fator de ajuste é o valor alfa, se comparado com os p não ajustados.

— Chris
fonte

Como aplicar corretamente o teste post-hoc de Nemenyi após o teste de Friedman

Como aplico o teste post-hoc da Nemenyi corretamente?