Estou usando o Kappa de Cohen para calcular a concordância entre dois juízes.
É calculado como:
onde é a proporção de concordância e a probabilidade de concordância por acaso.
Agora, para o seguinte conjunto de dados, obtenho os resultados esperados:
User A judgements:
- 1, true
- 2, false
User B judgements:
- 1, false
- 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333
Podemos ver que ambos os juízes não concordaram muito bem. No entanto, no caso a seguir, onde ambos os juízes avaliam um critério, o kappa avalia como zero:
User A judgements:
- 1, false
User B judgements:
- 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0
Agora posso ver que o acordo por acaso é obviamente 1, o que leva a kappa a zero, mas isso conta como um resultado confiável? O problema é que normalmente não tenho mais de dois julgamentos por critério, portanto, todos eles nunca serão avaliados para um kappa maior que 0, o que acho que não é muito representativo.
Estou certo com meus cálculos? Posso usar um método diferente para calcular a concordância?
Aqui podemos ver que o kappa funciona bem para vários julgamentos:
User A judgements:
- 1, false
- 2, true
- 3, false
- 4, false
- 5, true
User A judgements:
- 1, true
- 2, true
- 3, false
- 4, true
- 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996
information-retrieval
tag aqui.