Eu tenho um conjunto de dados de mais de 11.000 itens distintos, cada um deles classificado em uma escala nominal por pelo menos três avaliadores diferentes no Mechanical Turk da Amazon .
88 avaliadores diferentes forneceram julgamentos para a tarefa e ninguém avaliador concluiu mais de 800 julgamentos. A maioria forneceu significativamente menos que isso.
Minha pergunta é esta:
Eu gostaria de calcular alguma medida de confiabilidade entre avaliadores para as classificações, algo melhor do que simplesmente um consenso. Acredito, no entanto, que o Fleiss Kappa, que é a medida que eu conheço melhor, exigiria um grupo consistente de avaliadores para todo o conjunto de itens e, portanto, não posso usar o Fleiss Kappa para verificar a TIR com meus dados. Isso está correto? Existe outro método que eu poderia usar?
Qualquer conselho seria muito apreciado!