O que fazer em caso de baixa confiabilidade entre avaliadores (ICC)?


8

Antecedentes: Oito médicos classificaram os mesmos 54 pacientes em uma medida de persuasão (escala Likert de 1 a 7). A pontuação média na medida de persuasão acabará sendo a medida do resultado do meu experimento.

A confiabilidade interexaminadores foi quantificada como o coeficiente de correlação intraclasse (ICC), usando o modelo de efeitos aleatórios bidirecional com consistência. Infelizmente, a confiabilidade interavaliadores dos oito médicos foi baixa (ICC = 0,350, medidas únicas). Ainda devo executar análises planejadas adicionais com esses dados não confiáveis? Ou pode ser justificado que eu inclua apenas os médicos (ou seja, avaliadores) com a mais alta confiabilidade entre avaliadores? Descobri que existem dois médicos com uma confiabilidade interavaliadores mais aceitável (ICC = 0,718, N = 2), mas não acho que isso seja motivo suficiente para excluir os outros médicos das análises. Eu realmente aprecio qualquer referência à literatura que lide com esse problema.

Respostas:


6

Prefiro responder com base na própria metodologia, em vez de "consertar" a situação. Em outro contexto, ajudei a trabalhar em um sistema de classificação e classificação e descobri que o acordo entre avaliadores era decepcionantemente baixo. Dois caminhos foram considerados

  1. Alterar como os acordos de classificação foram definidos e identificar aqueles que pareciam "entender" a tarefa, ou
  2. Refine as definições usadas, juntamente com o guia de orientação e exemplos para os avaliadores, para que eles possam entender mais facilmente como classificar as coisas.

No primeiro cenário, toda a metodologia e os resultados poderiam ser desperdiçados simplesmente porque a confiabilidade entre avaliadores era baixa. Indicou que as definições originais eram ruins ou que os avaliadores receberam instruções precárias. Se eu seguisse esse caminho, certamente teria problemas.

No segundo caso, o acordo entre os avaliadores foi muito bom. Como eles classificaram muitos itens, eles também puderam dar um feedback quando considerassem inadequadas as definições e orientações originais. No final, a metodologia foi muito reproduzível.

Com base nisso, eu ainda não modificaria seu conjunto de avaliadores, mas retornaria às definições e orientações originais. Qualquer alteração após a classificação é um problema, embora possa ser útil como verificação de qualidade. Às vezes, existem avaliadores que fazem o que querem, independentemente da orientação dada. Com bons métodos estatísticos, é fácil identificá-los e ponderar suas contribuições adequadamente.

Agora, se eu estiver enganado e você não planeja fazer mais coleta, ou seja, seus dados já foram coletados e concluídos, o que você pode fazer é PCA ou algo parecido e veja se consegue entender como as diferentes grupo de médicos (ou pacientes).

Os pacientes foram expostos a todos os médicos ao mesmo tempo (por exemplo, através de uma gravação de vídeo) ou foram expostos sequencialmente e tiveram a chance de modificar sua apresentação a cada interação? Nesse último caso, pode haver problemas com os pacientes, e não com os médicos.


3

Escolher o melhor valor de ICC dentre os 28 pares possíveis definitivamente não é uma boa idéia, pois essa estimativa de ICC é certamente otimista.

O Manual de Análise de Conteúdo de Neuendorf apresenta uma discussão bastante boa das opções para lidar com a baixa confiabilidade na codificação. A citação é:

Neuendorf, Kimberly A. The Content Analysis Handbook. Sage, Thousand Oaks, CA, 2002

Existe um site de acompanhamento .


Os links não funcionam mais
Tom
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.