Confiabilidade entre avaliadores com muitos avaliadores não sobrepostos

8

Eu tenho um conjunto de dados de mais de 11.000 itens distintos, cada um deles classificado em uma escala nominal por pelo menos três avaliadores diferentes no Mechanical Turk da Amazon .

88 avaliadores diferentes forneceram julgamentos para a tarefa e ninguém avaliador concluiu mais de 800 julgamentos. A maioria forneceu significativamente menos que isso.

Minha pergunta é esta:

Eu gostaria de calcular alguma medida de confiabilidade entre avaliadores para as classificações, algo melhor do que simplesmente um consenso. Acredito, no entanto, que o Fleiss Kappa, que é a medida que eu conheço melhor, exigiria um grupo consistente de avaliadores para todo o conjunto de itens e, portanto, não posso usar o Fleiss Kappa para verificar a TIR com meus dados. Isso está correto? Existe outro método que eu poderia usar?

Qualquer conselho seria muito apreciado!

reliability agreement-statistics cohens-kappa

— Judd Antin
fonte

1

Bem vindo ao site! Perguntas semelhantes foram feitas antes com essas tags - você verificou se uma solução funcional pode ser encontrada entre elas?

— StasK

1

Obrigado! Eu com certeza verifiquei. Encontrei apenas uma pergunta diretamente relevante , mas ela não recebeu respostas.

— Judd Antin

2

Se você só precisa se convencer (em vez de informar um número para outra parte), pode ajustar um modelo hierárquico / misto com classificação cruzada, com itens e avaliadores sendo dois efeitos aleatórios. Então a correlação intraclasse para os avaliadores é [variação do efeito aleatório dos avaliadores] / [variação do efeito aleatório dos avaliadores + variação do efeito aleatório dos itens + (variação da distribuição logística = )] . Uma implementação específica depende da plataforma computacional que você está usando; o padrão no CV é R, então você o usaria , mas pode ter algo diferente como SPSS ou Stata. $\pi^2/3$ nlme

— StasK
fonte

2

Confira o alfa de Krippendorff. Ele tem várias vantagens em relação a outras medidas, como o Kappa de Cohen, o Kappa de Fleiss e o alfa de Cronbach: é robusto à falta de dados (o que eu acho que é a principal preocupação que você tem); é capaz de lidar com mais de 2 avaliadores; e ele pode lidar com diferentes tipos de escalas (nominal, ordinal etc.), e também é responsável por acordos de chance melhores do que algumas outras medidas como o Kappa de Cohen.

O cálculo do alfa de Krippendorff é suportado por vários pacotes de software estatístico, incluindo R (pelo pacote irr), SPSS, etc.

Abaixo estão alguns documentos relevantes, que discutem o alfa de Krippendorff, incluindo suas propriedades e sua implementação, e o comparam com outras medidas:

Hayes, AF; e Krippendorff, K. (2007). Atendendo à chamada para uma medida de confiabilidade padrão para codificação de dados. Métodos e medidas de comunicação, 1 (1), 77-89.
Krippendorff, K. (2004). Confiabilidade na análise de conteúdo: alguns equívocos e recomendações comuns. Human Communication Research, 30 (3), 411-433. doi: 10.1111 / j.1468-2958.2004.tb00738.x
Capítulo 3 em Krippendorff, K. (2013). Análise de Conteúdo: Uma Introdução à Sua Metodologia (3ª ed.): Sage.

Existem alguns documentos técnicos adicionais no site da Krippendorff

— ynagar
fonte