Eu não tenho o livro Fleiss em mãos, então tudo isso é IIRC.
Respondendo à pergunta de @ JohnMoeller nos comentários do momento: a pergunta original é IMHO irrespondível.
Portanto, suponha que eu possua 30 amostras, teste c1 e c2 em cada amostra e registre a precisão de cada uma delas.
fazendo isso, você acaba com uma tabela de contingência 2 x 2, dando ao classificador 1 correto / errado o classificador 2 correto / errado. Qual é o ponto de partida para o teste de McNemar . Portanto, isso é para uma comparação emparelhada, que é mais poderosa do que comparar proporções "independentes" (que não são completamente independentes se vierem do sorteio aleatório da mesma amostra finita).
No momento, não consigo procurar as "letras pequenas" de McNemar, mas 30 amostras não são muito. Então você pode até ter que mudar do teste exato de McNemar para o exato de Fisher [ou outra coisa] que calcula as probabilidades binomiais.
Meios de proporções:
não importa se você teste um e o mesmo classificador 10x com 10 casos de teste ou uma vez com todos esses 100 casos (a tabela 2 x 2 apenas conta todos os casos de teste).
Se as 10 estimativas de precisão de cada classificador na pergunta original forem obtidas por espera aleatória ou validação cruzada de 10 vezes ou 10x de inicialização, a suposição é geralmente que os 10 modelos substitutos calculados para cada classificador são equivalentes (= têm a mesma precisão), para que os resultados do teste possam ser agrupados *. Para validação cruzada de 10 vezes, você assume que o tamanho da amostra de teste é igual ao número total de amostras de teste. Para os outros métodos, não tenho tanta certeza: você pode testar o mesmo caso mais de uma vez. Dependendo dos dados / problema / aplicativo, isso não equivale a tanta informação quanto testar um novo caso.
k
knp^=knσ2(p^)=σ2(kn)=p(1−p)n