Comparando dois resultados de precisão do classificador para significância estatística com o teste t


17

Quero comparar a precisão de dois classificadores quanto à significância estatística. Ambos os classificadores são executados no mesmo conjunto de dados. Isso me leva a acreditar que eu deveria estar usando um teste t de uma amostra do que tenho lido .

Por exemplo:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

Esse é o teste certo para usar? Em caso afirmativo, como calculo se a diferença de precisão entre o classificador é significativa?

Ou devo usar outro teste?

Respostas:


14

Eu provavelmente optaria pelo teste de McNemar se você treinar os classificadores apenas uma vez. David Barber também sugere um teste bayesiano bastante elegante que me parece bastante elegante, mas não é amplamente utilizado (também é mencionado em seu livro ).

Apenas para acrescentar, como Peter Flom diz, a resposta é quase certamente "sim" apenas observando a diferença de desempenho e o tamanho da amostra (suponho que os números citados são desempenho de conjunto de teste em vez de desempenho de conjunto de treinamento).

Aliás, Japkowicz e Shah têm um livro recente sobre "Avaliando algoritmos de aprendizado: uma perspectiva de classificação" , ainda não li, mas parece uma referência útil para esse tipo de problema.


1
Estou executando a validação cruzada de 10 vezes para obter esses resultados. Isso significa que eles são realmente conjuntos de dados diferentes. Esse é o tamanho total, que é dividida para test / trem em validação cruzada
Chris

4
A precisão de cada dobra não será independente, o que violará as suposições da maioria dos testes estatísticos, mas provavelmente não será um grande problema. Geralmente, uso 100 divisões de treinamento / teste aleatórias e, em seguida, uso o teste de classificação assinado Wilcoxon emparelhado (use as mesmas divisões aleatórias para ambos os classificadores). Eu prefiro esse tipo de teste, pois geralmente uso pequenos conjuntos de dados (como estou interessado em realizar ajustes excessivos), de modo que a variabilidade entre divisões aleatórias tende a ser comparável à diferença de desempenho entre os classificadores.
Dikran Marsupial

2
(+1) para Wilcoxon pareado assinado teste rank (eo link para o livro ... se o toc possa cumprir as suas promessas neste livro podem tornar-se uma leitura obrigatória de todos os MLs: O)
Steffen

3
Também usei testes de classificação assinados, bem como testes t emparelhados para comparar classificadores. No entanto, toda vez que eu relato usando um teste unilateral para esse fim, eu sofro muito com os revisores, então voltamos a usar testes bilaterais!
BGreene

2
Dado que o OP esclareceu nos comentários que a pergunta era realmente sobre validação cruzada, você talvez considerasse expandir sua resposta para cobrir esse tópico? Podemos editar o Q então. Este é um tópico importante e existem algumas perguntas muito relacionadas (ou mesmo duplicadas), mas nenhuma tem uma boa resposta. Em um comentário acima, você recomenda o uso de um teste emparelhado nas estimativas de CV e diz que não acha que a não independência é um grande problema aqui. Por que não? Parece-me um problema potencialmente enorme!
Ameba diz Reinstate Monica

4

Posso dizer-lhe, sem sequer executar nada, que a diferença será altamente estatisticamente significativa. Ele passa no IOTT (teste de trauma interocular - atinge você entre os olhos).

Se você quiser fazer um teste, no entanto, poderá fazê-lo como um teste de duas proporções - isso pode ser feito com um teste t de duas amostras.

Você pode querer dividir a "precisão" em seus componentes; sensibilidade e especificidade, ou falso-positivo e falso-negativo. Em muitas aplicações, o custo dos diferentes erros é bem diferente.


zn

tz

2
A porcentagem de precisão que coloquei na minha pergunta é apenas um exemplo.
31412 Chris

0

Como a precisão, neste caso, é a proporção de amostras corretamente classificadas, podemos aplicar o teste de hipótese referente a um sistema de duas proporções.

p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

A estatística do teste é dada por

Z=p^1-p^22p^(1-p^)/n Onde p^=(x1+x2)/2n

p2p1

  • H0 0:p1=p2 (hipótese nula afirmando que ambos são iguais)
  • Huma:p1<p2 (hipotese alternativa alegando que a mais recente é melhor que a existente)

A região de rejeição é dada por

Z<-zαH0 0Huma

zααz0,5=1.645Z<-1.6451-α

Referências:

  1. R. Johnson e J. Freund, Probabilidade e Estatística de Miller e Freund para Engenheiros, 8ª Ed. Prentice Hall International, 2011. (Fonte primária)
  2. Teste do resumo da fórmula concisa de hipóteses . (Adotado em [1])

Não deveria p^p^1p^2p^=(x1+x2)/2n

Embora eu concorde que um teste para proporções possa ser usado, não há nada na pergunta original que sugira que um teste unilateral seja apropriado. Além disso, "poderíamos dizer com 95% de confiança" é uma má interpretação comum. Veja, por exemplo, aqui: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg

@ShivaTp De fato. Obrigado por apontar a tão necessária correção de erros de digitação. Edição confirmada.
É Isaac
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.