Medindo o desempenho de diferentes classificadores com diferentes tamanhos de amostra


12

Atualmente, estou usando vários classificadores diferentes em várias entidades extraídas do texto e usando precisão / recall como um resumo de quão bem cada classificador separado é executado em um determinado conjunto de dados.

Gostaria de saber se existe uma maneira significativa de comparar o desempenho desses classificadores de maneira semelhante, mas que também leva em consideração o número total de cada entidade nos dados de teste que estão sendo classificados?

Atualmente, estou usando precisão / recall como uma medida de desempenho, portanto, pode ter algo como:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

No entanto, o conjunto de dados em que estou executando esses dados pode conter 100 mil pessoas, cinco mil empresas, 500 queijos e 1 ovo.

Existe uma estatística resumida que posso adicionar à tabela acima, que também leva em consideração o número total de cada item? Ou existe alguma maneira de medir o fato de que, por exemplo, 100% prec / rec no classificador Egg pode não ser significativo com apenas 1 item de dados?

Digamos que tivéssemos centenas desses classificadores, acho que estou procurando uma boa maneira de responder perguntas como "Quais classificadores estão com baixo desempenho? Quais classificadores não têm dados de teste suficientes para saber se estão com baixo desempenho?".


Se você tem diferentes classificadores treinados em diferentes conjuntos de dados, como você pode compará-los de maneira significativa? Maçãs e laranjas, giz e queijo vêm à mente. Além disso, se você possui classificadores multiclasses, como calcula a precisão e o recall? Mesmo sabendo que N = 1 não é necessariamente útil - se houver apenas um ovo no mundo, seu classificador de óvulos está bem.
Touro

Eles são classificadores diferentes treinados nos mesmos conjuntos de dados, por exemplo, sabemos que temos um documento sobre maçãs e laranjas, por isso executamos um classificador de maçã para determinar o tipo de maçã de que está falando e um classificador de laranja para determinar o tipo de laranja Isso fala sobre. Se nossos documentos são 99% sobre maçãs, 1% sobre laranjas e ambos os classificadores têm o mesmo prec / rec (somando linhas / colunas sobre matriz de confusão), há alguma informação que possamos apresentar que leve em consideração as diferenças nas quantidades de cada ? (pode ser que não, não é, que é uma resposta que eu ficaria feliz com)
Dave Challis

Respostas:


5

Você precisa observar o intervalo de confiança da estatística. Isso ajuda a medir quanta incerteza na estatística, que é amplamente uma função do tamanho da amostra.


2

Na minha opinião, é difícil comparar o desempenho quando há uma grande diferença de tamanho. Neste link, (confira aqui na Wikipedia http://en.wikipedia.org/wiki/Effect_size ), você pode ver estratégias diferentes.

O que eu sugiro é um relacionado à variação. Por exemplo, considere o desempenho do classificador (100%) e do classificador de pessoas (65%). O erro mínimo que você comete com o antigo classificador é 100%. No entanto, o erro mínimo que você pode confirmar com o último classificador é 10e-5.

Portanto, uma maneira de comparar o classificador é ter em mente esta Regra dos Três ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics) em que você pode comparar o desempenho e sua variabilidade.

Outra possibilidade é a medida F, que é uma combinação de Precisão e Recuperação e, de alguma forma, é independente do tamanho do efeito.


2

O número de dados na classe às vezes é chamado supportde classificador. Ele diz o quanto você pode confiar no seu resultado, como se um valor-p lhe permitisse confiar ou desconfiar de algum teste.

Uma abordagem que você pode usar é calcular várias medidas de desempenho do classificador, não apenas precisão e recuperação, mas também taxa positiva verdadeira, taxa positiva falsa, especificidade, sensibilidade, probabilidade positiva, probabilidade negativa, etc., e verificar se são consistentes entre si. . Se uma das medidas atinge o máximo (100%) e a outra não, é frequentemente, na minha experiência, indicativo de que algo deu errado (por exemplo, suporte insuficiente, classificador trivial, classificador tendencioso etc.). Veja isso para obter uma lista de medidas de desempenho do classificador.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.