Visão geral da pergunta
Aviso: Esta pergunta requer muita configuração. Por favor, tenha paciência comigo.
Um colega meu e eu estamos trabalhando em um experimento. O design deve contornar um grande número de restrições, que listarei abaixo. Eu desenvolvi um design que satisfaz as restrições e que nos fornece estimativas imparciais de nossos efeitos de interesse. No entanto, meu colega acredita que há um confuso no design. Discutimos esse ponto ad nauseum sem chegar a uma resolução, portanto, neste momento, gostaria de algumas opiniões externas.
Descreverei o objetivo do estudo, nossas restrições, o potencial de confusão e por que acredito que esse "conflito" não é um problema abaixo. Ao ler cada seção, lembre-se da minha pergunta geral:
Existe alguma confusão no design que descrevo?
[Os detalhes deste experimento foram modificados, mas os elementos essenciais necessários para fazer minha pergunta permanecem os mesmos]
Objetivos da experiência
Desejamos determinar se os ensaios escritos por homens brancos são avaliados mais favoravelmente do que os ensaios escritos por mulheres brancas, homens negros ou mulheres negras (a variável de autoria do ensaio ). Também queremos determinar se algum viés encontrado aparece mais em doações de alta ou baixa qualidade (a variável de qualidade ). Finalmente, desejamos incluir ensaios escritos sobre 12 tópicos diferentes (a variável tópico ). No entanto, apenas as duas primeiras variáveis são de interesse substantivo; embora o tópico deva variar entre os ensaios, não estamos substancialmente interessados em saber como as avaliações variam entre os tópicos.
Restrições
- Existem limites para o número de participantes e o número de ensaios que podemos coletar. O resultado é que a autoria não pode ser manipulada inteiramente entre os participantes, nem pode ser manipulada inteiramente entre ensaios (ou seja, cada ensaio individual deve ser atribuído a várias condições).
- Embora cada redação possa ter versões de homem branco, mulher branca, homem preto e mulher negra, cada redação pode ser apenas de alta e baixa qualidade e ter apenas um tópico. Ou, para colocar essa restrição de uma maneira diferente, nem a qualidade nem o tópico podem ser manipulados nos ensaios, uma vez que são características inerentes a um determinado ensaio.
- Devido à fadiga, há um limite para o número de ensaios que um determinado participante pode avaliar.
- Todos os ensaios que uma determinada pessoa lê devem ser sobre um único tópico. Em outras palavras, os ensaios não podem ser atribuídos inteiramente aleatoriamente aos participantes, pois precisamos garantir que cada participante leia apenas ensaios de um tópico semelhante.
- Cada participante pode ver apenas um ensaio supostamente de autoria de um autor não-branco, pois não queremos que os participantes suspeitem do objetivo do experimento, porque muitos de seus ensaios são escritos por autores negros ou femininos.
O desenho proposto
Meu projeto proposto primeiro manipula cada ensaio em quatro versões diferentes de autoria (homem branco, mulher branca etc.). Quatro ensaios de um tópico semelhante são então usados para definir um "conjunto", cada um dos quais consiste em dois ensaios de alta e dois de baixa qualidade. Cada participante recebe três ensaios de um determinado conjunto, como segue na figura abaixo. Cada participante fornece uma classificação única para cada um dos três ensaios que ele ou ela está designado.
O potencial conflito
Meu colega acredita que o design acima contém um confusão. O problema, diz ele, é que, quando um ensaio de alta qualidade é designado para ser de autoria de um escritor não-branco, ele é sempre associado a um ensaio de alta qualidade e outro de baixa qualidade (para o Ensaio 1, veja Participantes 1-3 na figura). Por outro lado, quando esse mesmo ensaio é designado para ser de autoria de escritores do sexo masculino, ele é emparelhado com um ensaio de alta qualidade e outro de baixa qualidade três vezes (para o Ensaio 1, Participantes 4-6) e dois ensaios de baixa qualidade, três vezes (para o Ensaio 1, Participantes 7-9).
Existe um problema semelhante para ensaios de baixa qualidade. Quando um ensaio de baixa qualidade tem um autor não-branco, ele sempre é visto com um ensaio de baixa qualidade e um ensaio de alta qualidade (para o Ensaio 3, consulte Participantes 7-9). No entanto, quando esse mesmo ensaio tem um autor branco, ele é visto com um ensaio de alta qualidade e outro de baixa qualidade três vezes (para o Ensaio 3, Participantes 10 a 12) e com dois ensaios de alta qualidade três vezes (para o Ensaio 3, Participantes 1-3).
A razão pela qual os padrões acima podem ser problemáticos é se assumirmos a existência de "efeitos de contraste". Especificamente, se ensaios de alta qualidade forem avaliados mais favoravelmente, em média, quando combinados com dois ensaios de baixa qualidade do que quando combinados com um ensaio de baixa qualidade e um ensaio de alta qualidade (uma suposição razoável), os ensaios masculinos brancos podem receber classificações mais altas do que Ensaios de mulheres brancas, homens negros e mulheres negras por um motivo que não seja a autoria.
Um efeito de contraste para ensaios de alta qualidade pode ou não ser balanceado por um efeito de contraste para ensaios de baixa qualidade; isto é, pode ou não ser o caso de ensaios de baixa qualidade combinados com dois ensaios de alta qualidade serem avaliados de maneira especialmente desfavorável. Independentemente disso, afirma meu colega, o potencial de qualquer tipo de efeito de contraste torna esse design problemático com o objetivo de determinar se os ensaios criados pelos homens brancos são avaliados mais favoravelmente do que os ensaios de outros autores.
Por que acredito que o potencial conflito não é um problema
O que importa para mim é se somos capazes de estimar em que grau os ensaios masculinos brancos são avaliados diferentemente de outros ensaios (ou seja, se podemos estimar nossos efeitos de interesse), mesmo na presença de efeitos de contraste. Por isso, conduzi uma simulação em que simulei 50 conjuntos de dados que continham efeitos de contraste e ajustamos um modelo que testa nossos efeitos de interesse.
O modelo específico é um modelo de efeitos mistos com interceptações aleatórias para ensaio (cada ensaio é avaliado por vários participantes) e participante (cada participante avalia vários ensaios). O nível de redação também contém inclinações aleatórias para raça, gênero e sua interação (ambas as variáveis são manipuladas na redação) e o nível de participante contém uma inclinação aleatória para a qualidade (a qualidade é manipulada dentro dos participantes). Os efeitos do interesse são os efeitos de raça, gênero, a interação entre raça e gênero e as interações de ordem superior entre cada uma dessas variáveis e qualidade. O objetivo dessa simulação era determinar se a introdução de efeitos de contraste nos dados criaria efeitos espúrios de raça, gênero, interação entre raça e gênero, e as interações de ordem superior entre essas variáveis e qualidade. Veja o código abaixo para obter mais detalhes.
De acordo com a simulação, a presença de efeitos de contraste não influencia as estimativas de nenhum dos nossos efeitos de interesse. Além disso, o tamanho do efeito de contraste pode ser estimado no mesmo modelo estatístico que os outros efeitos no design; para mim, isso já sugere que os "efeitos de contraste" identificados pelo meu colega não são confusos. Meu colega, no entanto, permanece cético.
require(lme4)
require(plyr)
participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black",
"white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female",
"female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female")
d <- data.frame(participant, essay, quality, race, gender)
for(i in 1:35)
{
participant <- participant + 12
essay <- essay + 4
newdat <- data.frame(participant, essay, quality, race, gender)
d <- rbind(d, newdat)
}
check_var <- function(var)
{
tab <- table(var)
newvar <- character()
for(i in var)
{
if(i == names(tab[tab == 1]))
{
newvar <- c(newvar, "different")
} else
{
newvar <- c(newvar, "same")
}
}
return(newvar)
}
# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))
# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)
# Random seed
set.seed(2352)
# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)
# For each simulation
for(i in 1:reps)
{
# Fixed effects. A quality effect and a contrast effect for quality
d$score <- .5 * d$quality + 1 * d$different * d$quality
# Random effects at the participant level
d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
r_q = rnorm(1, sd = .5),
score = score + r_int + r_q * quality)
# Random effects at the essay level
d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
g_r = rnorm(1, sd = .5),
g_g = rnorm(1, sd = .5),
g_r_g = rnorm(1, sd = .5),
score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)
# Observation-level error
d$score <- d$score + rnorm(dim(d)[1], sd = 1)
# Fit the model
mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)
# Store the coefficients
colnames(effs) <- names(fixef(mod))
effs[i, ] <- fixef(mod)
# Print the current simulation
print(i)
}
# Results
round(colMeans(effs), digits = 2)
(Intercept) race gender quality
0.00 -0.03 0.02 0.50
different race:gender race:quality gender:quality
0.01 -0.03 0.00 0.03
quality:different race:gender:quality
0.97 -0.02
Mais uma vez, minha pergunta geral é: existe um confusão no design que descrevi? Se não houver um conflito, eu estaria interessado em uma descrição de por que os potenciais "efeitos de contraste" não são confusos, para que eu possa explicar isso ao meu colega.