Confiabilidade entre avaliadores para dados ordinais ou com intervalo

Quais métodos de confiabilidade entre avaliadores são mais apropriados para dados ordinais ou com intervalo?

Eu acredito que "Probabilidade conjunta de concordância" ou "Kappa" são projetadas para dados nominais. Embora "Pearson" e "Spearman" possam ser usados, eles são usados principalmente para dois avaliadores (embora possam ser usados para mais de dois avaliadores).

Que outras medidas são adequadas para dados ordinais ou com intervalos, ou seja, mais de dois avaliadores?

— shadi
fonte

A estatística Kappa ( ) é um índice de qualidade que compara a concordância observada entre dois avaliadores em uma escala nominal ou ordinal com a concordância esperada apenas por acaso (como se os avaliadores estivessem jogando). Existem extensões para o caso de múltiplos avaliadores (2, pp. 284–291). No caso de dados ordinais , você pode usar o ponderado , que basicamente lê como de costume com elementos fora da diagonal que contribuem para a medida de concordância. Fleiss (3) forneceu diretrizes para interpretar os valores de , mas essas são apenas regras de ouro. $\kappa$ $\kappa$ $\kappa$ $\kappa$

O $\kappa$ estatística é assintoticamente equivalente ao ICC estimado a partir de uma ANOVA de efeitos aleatórios bidirecional, mas testes de significância e SE provenientes da estrutura usual da ANOVA não são mais válidos com dados binários. É melhor usar o bootstrap para obter o intervalo de confiança (IC). Fleiss (8) discutiu a conexão entre o kappa ponderado e a correlação intraclasse (CCI).

Note-se que alguns psicometristas não gostam muito de $\kappa$ porque são afetados pela prevalência do objeto de medida, assim como valores preditivos são afetados pela prevalência da doença em consideração, e isso pode levar a resultados paradoxais.

Fiabilidade entre avaliadores para avaliadores pode ser estimada com coeficiente de Kendall de concordância, . Quando o número de itens ou unidades que estão classificado , . (2, pp. 269-270). Essa aproximação assintótica é válida para valores moderados de e (6), mas com menos de 20 itens ou testes de permutação são mais adequados (7). Existe uma estreita relação entre de Spearman e de Kendall $k$ $W$ $n > 7$ $k(n − 1)W \sim \chi^2(n − 1)$ $n$ $k$ $F$ $\rho$ $W$ estatística: pode ser calculado diretamente a partir da média das correlações de Spearman em pares (apenas para observações não vinculadas). $W$

A correlação policórica (dados ordinais) também pode ser usada como uma medida de concordância entre avaliadores. De fato, eles permitem

estimar qual seria a correlação se as classificações fossem feitas em uma escala contínua,
testar homogeneidade marginal entre avaliadores.

De fato, pode-se demonstrar que é um caso especial de modelagem de características latentes, que permite relaxar as premissas distributivas (4).

Sobre medições contínuas (ou assim assumidas), o ICC que quantifica a proporção de variação atribuível à variação entre sujeitos é bom. Novamente, os ICs com inicialização são recomendados. Como @ars disse, existem basicamente duas versões - concordância e consistência - aplicáveis no caso de estudos de concordância (5), e que diferem principalmente na maneira como a soma dos quadrados é calculada; o ICC de “consistência” é geralmente estimado sem considerar a interação Item × Avaliador. A estrutura ANOVA é útil no design de blocos específicos, onde se deseja minimizar o número de classificações ( BIBD ) - de fato, essa foi uma das motivações originais do trabalho de Fleiss. É também o melhor caminho a seguir para vários avaliadores. A extensão natural dessa abordagem é chamada de Teoria da Generalizabilidade . Uma breve visão geral é fornecida em Rater Models: An Introduction , caso contrário, a referência padrão é o livro de Brennan, revisado em Psychometrika 2006 71 (3) .

Quanto às referências gerais, recomendo o capítulo 3 de Estatística em Psiquiatria , de Graham Dunn (Hodder Arnold, 2000). Para um tratamento mais completo dos estudos de confiabilidade, a melhor referência até o momento é

Dunn, G. (2004). Projeto e análise de estudos de confiabilidade . Arnold. Veja a revisão no International Journal of Epidemiology .

Uma boa introdução on-line está disponível no site de John Uebersax, Correlação Intraclasse e Métodos Relacionados ; inclui uma discussão dos prós e contras da abordagem do TPI, principalmente com relação às escalas ordinais.

Pacotes R relevantes para avaliação bidirecional (medições ordinais ou contínuas) são encontrados na Visualização de Tarefas da Psychometrics ; Eu geralmente uso os pacotes psy , psych ou irr . Há também o pacote concord , mas eu nunca o usei. Para lidar com mais de dois avaliadores, o pacote lme4 é o caminho a seguir, pois permite incorporar facilmente efeitos aleatórios, mas a maioria dos projetos de confiabilidade pode ser analisada usando o aov()porque precisamos apenas estimar os componentes de variação.

Referências

J. Cohen. Kappa ponderado: Contrato de escala nominal com provisão para desacordo em escalas de crédito parcial. Boletim psicológico , 70 , 213-220, 1968.
S Siegel e Jr N John Castellan. Estatística Não Paramétrica para as Ciências do Comportamento . McGraw-Hill, segunda edição, 1988.
JL Fleiss. Métodos estatísticos para taxas e proporções . Nova York: Wiley, Segunda edição, 1981.
JS Uebersax. Os coeficientes de correlação tetracórica e policórica . Site Statistical Methods for Rater Agreement, 2006. Disponível em: http://john-uebersax.com/stat/tetra.htm . Acessado em 24 de fevereiro de 2010.
PE Shrout e JL Fleiss. Correlação intraclasse: Utilizada na avaliação da confiabilidade do avaliador . Psychological Bulletin , 86 , 420-428, 1979.
MG Kendall e B Babington Smith. O problema de m rankings . Annals of Mathematics Statistics , 10 , 275–287, 1939.
P Legendre. Coeficiente de concordância . Em NJ Salkind, editor, Encyclopedia of Research Design . Publicações SAGE, 2010.
JL Fleiss. A equivalência do kappa ponderado e o coeficiente de correlação intraclasse como medidas de confiabilidade . Educational and Psychological Measurement , 33 , 613-619, 1973.

— chl
fonte

Três referências adicionais: 1. Beyond Kappa: Uma revisão das medidas de concordância entre avaliadores por Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney e Debajyoti Sinha 2. Confiabilidade entre avaliadores e concordância nas classificações de desempenho: uma comparação metodológica por John W. Fleenor, Julie B. Fleenor e William F. Grossnickle

— M. Tibbits

3. Métodos estatísticos para avaliar o erro de medição (confiabilidade) em variáveis relevantes para a medicina esportiva. de Atkinson G e Nevill AM. A primeira referência é específica para dados ordinais e discute outras medidas além do Kappa para dados ordinais. O segundo e o terceiro são específicos para os dados do intervalo.

— M. Tibbits

(+1) Muito obrigado M. Tibbits! Geralmente forneço muitas referências e exemplos durante minhas palestras em psicometria, incluindo a primeira que você citou, mas não conhecia as outras duas.

— chl

Além disso, o pacote ordinal permite modelagem em vários níveis, como lme4, mas com regressão ordinal.

— John

A correlação intraclasse pode ser usada para dados ordinais. Mas existem algumas ressalvas, principalmente que os avaliadores não podem ser distinguidos. Para saber mais sobre isso e como escolher entre diferentes versões do ICC, consulte:

Correlações intraclasse: usos na avaliação da confiabilidade do avaliador (Shrout, Fleiss, 1979)

— ars
fonte