Pode-se usar o Kappa de Cohen apenas para dois julgamentos?

Estou usando o Kappa de Cohen para calcular a concordância entre dois juízes.

É calculado como:

$\frac{P(A) - P(E)}{1 - P(E)}$

onde é a proporção de concordância e a probabilidade de concordância por acaso. $P(A)$ $P(E)$

Agora, para o seguinte conjunto de dados, obtenho os resultados esperados:

User A judgements: 
  - 1, true
  - 2, false
User B judgements: 
  - 1, false
  - 2, false
Proportion agreed: 0.5
Agreement by chance: 0.625
Kappa for User A and B: -0.3333333333333333

Podemos ver que ambos os juízes não concordaram muito bem. No entanto, no caso a seguir, onde ambos os juízes avaliam um critério, o kappa avalia como zero:

User A judgements: 
  - 1, false
User B judgements: 
  - 1, false
Proportion agreed: 1.0
Agreement by chance: 1.0
Kappa for User A and B: 0

Agora posso ver que o acordo por acaso é obviamente 1, o que leva a kappa a zero, mas isso conta como um resultado confiável? O problema é que normalmente não tenho mais de dois julgamentos por critério, portanto, todos eles nunca serão avaliados para um kappa maior que 0, o que acho que não é muito representativo.

Estou certo com meus cálculos? Posso usar um método diferente para calcular a concordância?

Aqui podemos ver que o kappa funciona bem para vários julgamentos:

User A judgements: 
  - 1, false
  - 2, true
  - 3, false
  - 4, false
  - 5, true
User A judgements: 
  - 1, true
  - 2, true
  - 3, false
  - 4, true
  - 5, false
Proportion agreed: 0.4
Agreement by chance: 0.5
Kappa for User A and B: -0.19999999999999996

reliability information-retrieval

— slhck
fonte

Para confiabilidade interexaminadores com resultados binários, acho que geralmente se usa o coeficiente tetracórico.

— shabbychef

Você poderia elaborar sobre isso? Definitivamente, não sou especialista em estatística e não consigo encontrar uma abordagem direta para calcular um coeficiente tetracórico.

— slhck

Eu não acho que você esteja certo no primeiro cálculo. Se não me engano, o acordo por acaso deve ser 0,5, dando um kappa de 0.

— Onestop

Eu realmente não entendo a information-retrievaltag aqui.

— CHL

Não sei, estou trabalhando em uma tarefa de recuperação de informações, na qual as pessoas julgam se os documentos são relevantes ou não, daí a estatística kappa. Mas todos podem marcar novamente as postagens aqui, fique à vontade para fazê-lo! @onestop, seguindo este guia padrão os números estão correctos, os marginais reunidas são 0,75 e 0,25, respectivamente, e ambos ao quadrado e adicionado ao outro igual 0,625

— slhck

Respostas:

A "correção de chance" em Cohen estima probabilidades com as quais cada avaliador escolhe as categorias existentes. A estimativa vem das frequências marginais das categorias. Quando você tem apenas 1 julgamento para cada avaliador, isso significa que assume que a categoria escolhida para esse julgamento único em geral tem uma probabilidade de 1. Isso obviamente não faz sentido, pois o número de julgamentos (1) é muito pequeno para estimar com segurança as taxas básicas de todas as categorias. $\kappa$ $\kappa$

Uma alternativa pode ser um modelo binomial simples: sem informações adicionais, podemos supor que a probabilidade de concordância entre dois avaliadores para um julgamento seja 0,5, pois os julgamentos são binários. Isso significa que assumimos implicitamente que ambos os avaliadores escolhem cada categoria com probabilidade 0,5 para todos os critérios. O número de acordos esperados por acaso em todos os critérios segue uma distribuição binomial com . $p=0.5$

— caracal
fonte

Acho a resposta de caracal convincente, mas também acredito que o Kappa de Cohen pode explicar apenas parte do que constitui confiabilidade entre avaliadores. A simples porcentagem de ratings em contrato representa outra parte e a correlação entre os ratings, um terço. São necessários os três métodos para obter uma imagem completa. Para detalhes, consulte http://pareonline.net/getvn.asp?v=9&n=4 :

"[...] a prática geral de descrever a confiabilidade entre avaliadores como um conceito único e unificado é, na melhor das hipóteses, imprecisa e, na pior das hipóteses, potencialmente enganosa".

— rolando2
fonte