Ambos os métodos se baseiam na mesma idéia: decompor a variação observada em diferentes partes ou componentes. No entanto, existem diferenças sutis se consideramos itens e / ou avaliadores como efeitos fixos ou aleatórios. Além de dizer qual parte da variabilidade total é explicada pelo fator entre (ou quanto a variação entre se afasta da variação residual), o teste F não diz muito. Pelo menos isso vale para uma ANOVA de mão única, na qual assumimos um efeito fixo (e que corresponde ao ICC (1,1) descrito abaixo). Por outro lado, o ICC fornece um índice limitado ao avaliar a confiabilidade da classificação para vários avaliadores "trocáveis" ou a homogeneidade entre as unidades analíticas.
Geralmente fazemos a seguinte distinção entre os diferentes tipos de ICCs. Isso se segue do trabalho seminal de Shrout e Fleiss (1979):
- Modelo de efeitos aleatórios unidirecional , ICC (1,1): cada item é avaliado por diferentes avaliadores que são considerados como amostra de um conjunto maior de avaliadores em potencial; portanto, são tratados como efeitos aleatórios; o ICC é então interpretado como a% da variação total contabilizada pela variação de assuntos / itens. Isso é chamado de consistência ICC.
- Modelo de efeitos aleatórios bidirecionais , ICC (2,1): ambos os fatores - avaliadores e itens / sujeitos - são vistos como efeitos aleatórios, e temos dois componentes de variância (ou quadrados médios) além da variação residual; assumimos ainda que os avaliadores avaliam todos os itens / assuntos; o TPI fornece, nesse caso, a% de variação atribuível aos avaliadores + itens / sujeitos.
- Modelo misto bidirecional , ICC (3,1): contrariamente à abordagem unidirecional, aqui os avaliadores são considerados efeitos fixos (sem generalização além da amostra em questão), mas itens / sujeitos são tratados como efeitos aleatórios; a unidade de análise pode ser a classificação individual ou a média.
Isso corresponde aos casos 1 a 3 na Tabela 1. Uma distinção adicional pode ser feita, dependendo de considerarmos que as classificações observadas são a média de várias classificações (elas são chamadas de ICC (1, k), ICC (2, k), e ICC (3, k)) ou não.
Em suma, você precisa escolher o modelo certo (unidirecional x bidirecional), e isso é amplamente discutido no artigo de Shrout e Fleiss. Um modelo unidirecional tende a gerar valores menores que o modelo bidirecional; da mesma forma, um modelo de efeitos aleatórios geralmente gera valores mais baixos do que um modelo de efeitos fixos. Um ICC derivado de um modelo de efeitos fixos é considerado como uma maneira de avaliar a consistência dos avaliadores (porque ignoramos a variação dos avaliadores), enquanto que para um modelo de efeitos aleatórios falamos de uma estimativa da concordância dos avaliadores (sejam os avaliadores intercambiáveis ou não). Somente os modelos bidirecionais incorporam a interação avaliador x sujeito, o que pode ser interessante ao tentar desvendar padrões de classificação atípicos.
A figura seguinte é prontamente uma cópia / colar do exemplo de ICC()
no Psych pacote (dados provenientes de Shrout e Fleiss, 1979). Os dados consistem em 4 juízes (J), avaliando 6 sujeitos ou alvos (S) e são resumidos abaixo (assumirei que eles são armazenados como uma matriz R denominada sf
)
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
Este exemplo é interessante porque mostra como a escolha do modelo pode influenciar os resultados, portanto, a interpretação do estudo de confiabilidade. Todos os 6 modelos da ICC são os seguintes (esta é a Tabela 4 no artigo de Shrout e Fleiss)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
Como pode ser visto, considerar os avaliadores como efeitos fixos (portanto, não tentar generalizar para um conjunto maior de avaliadores) renderia um valor muito mais alto para a homogeneidade da medição. (Resultados semelhantes podem ser obtidos com o pacote irr ( icc()
), embora seja necessário brincar com a opção diferente para o tipo de modelo e a unidade de análise.)
O que a abordagem ANOVA nos diz? Precisamos ajustar dois modelos para obter os quadrados médios relevantes:
- um modelo unidirecional que considera apenas o assunto; isso permite separar as metas classificadas (entre grupos MS, BMS) e obter uma estimativa do termo dentro do erro (WMS)
- um modelo bidirecional que considera sujeito + avaliador + sua interação (quando não há repetições, este último termo será confundido com os resíduos); isso permite estimar o efeito principal do avaliador (JMS), que pode ser contabilizado se desejarmos usar um modelo de efeitos aleatórios (ou seja, adicionaremos à variabilidade total)
Não é necessário olhar para o teste F, apenas os EMs são interessantes aqui.
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
Agora, podemos montar as diferentes peças em uma tabela ANOVA estendida que se parece com a mostrada abaixo (esta é a tabela 3 no artigo de Shrout e Fleiss):
(fonte: mathurl.com )
onde as duas primeiras linhas são do modelo unidirecional, enquanto as duas seguintes são da ANOVA bidirecional.
É fácil verificar todas as fórmulas no artigo de Shrout e Fleiss, e temos tudo o que precisamos para estimar a confiabilidade de uma única avaliação . E a confiabilidade da média de várias avaliações (que geralmente é a quantidade de interesse em estudos entre avaliadores)? Seguindo Hays e Revicki (2005), pode-se obter a partir da decomposição acima alterando apenas o total de EM considerado no denominador, exceto o modelo de efeitos aleatórios de duas vias para o qual precisamos reescrever a proporção de EM.
- No caso de ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), a confiabilidade geral é calculada como (BMS-WMS) /BMS=0,443.
- Para o ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), a confiabilidade geral é (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
- Finalmente, para o ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS), temos uma confiabilidade de (BMS-EMS) / BMS = 0,909.
Novamente, descobrimos que a confiabilidade geral é maior quando consideramos os avaliadores como efeitos fixos.
Referências
- Shrout, PE e Fleiss, JL (1979). Correlações intraclasse: Utilizadas na avaliação da confiabilidade do avaliador . Boletim Psicológico , 86, 420-3428.
- Hays, RD e Revicki, D. (2005). Confiabilidade e validade (incluindo capacidade de resposta). Em Fayers, P. e Hays, RD (eds.), Avaliando a qualidade de vida em ensaios clínicos , 2ª ed., Pp. 25-39. Imprensa da Universidade de Oxford.