A estatística Kappa ( ) é um índice de qualidade que compara a concordância observada entre dois avaliadores em uma escala nominal ou ordinal com a concordância esperada apenas por acaso (como se os avaliadores estivessem jogando). Existem extensões para o caso de múltiplos avaliadores (2, pp. 284–291). No caso de dados ordinais , você pode usar o κ ponderado , que basicamente lê como de costume κ com elementos fora da diagonal que contribuem para a medida de concordância. Fleiss (3) forneceu diretrizes para interpretar os valores de k , mas essas são apenas regras de ouro.κ κκκ
O κ estatística é assintoticamente equivalente ao ICC estimado a partir de uma ANOVA de efeitos aleatórios bidirecional, mas testes de significância e SE provenientes da estrutura usual da ANOVA não são mais válidos com dados binários. É melhor usar o bootstrap para obter o intervalo de confiança (IC). Fleiss (8) discutiu a conexão entre o kappa ponderado e a correlação intraclasse (CCI).
Note-se que alguns psicometristas não gostam muito de κ porque são afetados pela prevalência do objeto de medida, assim como valores preditivos são afetados pela prevalência da doença em consideração, e isso pode levar a resultados paradoxais.
Fiabilidade entre avaliadores para avaliadores pode ser estimada com coeficiente de Kendall de concordância, W . Quando o número de itens ou unidades que estão classificado n > 7 , k ( n - 1 ) W ~ χ 2 ( n - 1 ) . (2, pp. 269-270). Essa aproximação assintótica é válida para valores moderados de n e k (6), mas com menos de 20 itens F ou testes de permutação são mais adequados (7). Existe uma estreita relação entre ρ de Spearman e W de KendallkWn > 7k ( n - 1 ) W∼ χ2( n - 1 )nkFρWestatística: pode ser calculado diretamente a partir da média das correlações de Spearman em pares (apenas para observações não vinculadas).W
A correlação policórica (dados ordinais) também pode ser usada como uma medida de concordância entre avaliadores. De fato, eles permitem
- estimar qual seria a correlação se as classificações fossem feitas em uma escala contínua,
- testar homogeneidade marginal entre avaliadores.
De fato, pode-se demonstrar que é um caso especial de modelagem de características latentes, que permite relaxar as premissas distributivas (4).
Sobre medições contínuas (ou assim assumidas), o ICC que quantifica a proporção de variação atribuível à variação entre sujeitos é bom. Novamente, os ICs com inicialização são recomendados. Como @ars disse, existem basicamente duas versões - concordância e consistência - aplicáveis no caso de estudos de concordância (5), e que diferem principalmente na maneira como a soma dos quadrados é calculada; o ICC de “consistência” é geralmente estimado sem considerar a interação Item × Avaliador. A estrutura ANOVA é útil no design de blocos específicos, onde se deseja minimizar o número de classificações ( BIBD ) - de fato, essa foi uma das motivações originais do trabalho de Fleiss. É também o melhor caminho a seguir para vários avaliadores. A extensão natural dessa abordagem é chamada de Teoria da Generalizabilidade . Uma breve visão geral é fornecida em Rater Models: An Introduction , caso contrário, a referência padrão é o livro de Brennan, revisado em Psychometrika 2006 71 (3) .
Quanto às referências gerais, recomendo o capítulo 3 de Estatística em Psiquiatria , de Graham Dunn (Hodder Arnold, 2000). Para um tratamento mais completo dos estudos de confiabilidade, a melhor referência até o momento é
Dunn, G. (2004). Projeto e análise de estudos de confiabilidade . Arnold. Veja a revisão no International Journal of Epidemiology .
Uma boa introdução on-line está disponível no site de John Uebersax, Correlação Intraclasse e Métodos Relacionados ; inclui uma discussão dos prós e contras da abordagem do TPI, principalmente com relação às escalas ordinais.
Pacotes R relevantes para avaliação bidirecional (medições ordinais ou contínuas) são encontrados na Visualização de Tarefas da Psychometrics ; Eu geralmente uso os pacotes psy , psych ou irr . Há também o pacote concord , mas eu nunca o usei. Para lidar com mais de dois avaliadores, o pacote lme4 é o caminho a seguir, pois permite incorporar facilmente efeitos aleatórios, mas a maioria dos projetos de confiabilidade pode ser analisada usando o aov()
porque precisamos apenas estimar os componentes de variação.
Referências
- J. Cohen. Kappa ponderado: Contrato de escala nominal com provisão para desacordo em escalas de crédito parcial. Boletim psicológico , 70 , 213-220, 1968.
- S Siegel e Jr N John Castellan. Estatística Não Paramétrica para as Ciências do Comportamento . McGraw-Hill, segunda edição, 1988.
- JL Fleiss. Métodos estatísticos para taxas e proporções . Nova York: Wiley, Segunda edição, 1981.
- JS Uebersax. Os coeficientes de correlação tetracórica e policórica . Site Statistical Methods for Rater Agreement, 2006. Disponível em: http://john-uebersax.com/stat/tetra.htm . Acessado em 24 de fevereiro de 2010.
- PE Shrout e JL Fleiss. Correlação intraclasse: Utilizada na avaliação da confiabilidade do avaliador . Psychological Bulletin , 86 , 420-428, 1979.
- MG Kendall e B Babington Smith. O problema de m rankings . Annals of Mathematics Statistics , 10 , 275–287, 1939.
- P Legendre. Coeficiente de concordância . Em NJ Salkind, editor, Encyclopedia of Research Design . Publicações SAGE, 2010.
- JL Fleiss. A equivalência do kappa ponderado e o coeficiente de correlação intraclasse como medidas de confiabilidade . Educational and Psychological Measurement , 33 , 613-619, 1973.