Aplicando a resposta de Erik à de Michael :
Você pode fazer o mesmo tipo de pensamento ao qual Erik se refere ao escolher a medida de desempenho.
Acho útil consultar diferentes medidas desse tipo pelas perguntas que elas respondem (aqui na linguagem de diagnóstico médico com a qual eu estou mais familiarizado - mas talvez você possa simplesmente substituir paciente por texto e doença por spam ;-)):
Sensibilidade: dado que o paciente realmente tem a doença, qual a probabilidade do classificador perceber isso?
Especificidade: dado que o paciente realmente não tem a doença, qual a probabilidade do classificador perceber isso?
Valor preditivo positivo: dado que o classificador afirma que o paciente está doente, qual a probabilidade do paciente realmente ter a doença?
Valor preditivo negativo: dado que o classificador alega que o paciente não está doente, qual a probabilidade do paciente realmente não ter a doença?
Como você vê, os valores preditivos são o que realmente interessa a médicos e pacientes. No entanto, quase todo mundo caracteriza seu classificador por sensibilidade e especificidade. A razão é que os valores preditivos precisam levar em consideração a prevalência da doença, e isso pode variar enormemente (ordens de magnitude!) Para diferentes tipos de pacientes.
Mais sobre o tópico para sua pergunta:
Aposto que você está certo em se preocupar.
Tomando os dois cenários de Erik em um exemplo:
Aqui estão as amostras de teste independentes:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(observe que esse teste foi bilateral, assumindo que os dois classificadores tivessem sido publicados mesmo que os resultados tivessem sido inversos ...)
Aqui está a melhor situação possível: teste emparelhado, e o novo classificador é adequado para todas as amostras, o antigo também e mais 10:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(o valor p permanece abaixo do 0,05 mágico, desde que não mais que 10 amostras das 1000 tenham sido previstas de forma diferente pelos dois classificadores).
Mesmo que os valores-p sejam a resposta certa para a pergunta errada, há indicação de que é um local apertado.
No entanto, levando em consideração a prática científica usual, ou seja, um número desconhecido (não publicado) de novos recursos foi testado e apenas o que funcionou um pouco melhor foi publicado, o local fica ainda mais restrito. E então, o classificador de 80% pode ser o sucessor de 79% do classificador ...
Se você gosta de ler alemão, existem alguns livros muito bons de Beck-Bornhold e Dubben. Se bem me lembro, Mit an Wahrscheinlichkeit grenzender Sicherheit tem uma discussão muito boa desses problemas. (Não sei se existe uma edição em inglês, uma tradução literal do título é "Com uma certeza beirando a probabilidade")