Um potencial conflito em um experimento

Visão geral da pergunta

Aviso: Esta pergunta requer muita configuração. Por favor, tenha paciência comigo.

Um colega meu e eu estamos trabalhando em um experimento. O design deve contornar um grande número de restrições, que listarei abaixo. Eu desenvolvi um design que satisfaz as restrições e que nos fornece estimativas imparciais de nossos efeitos de interesse. No entanto, meu colega acredita que há um confuso no design. Discutimos esse ponto ad nauseum sem chegar a uma resolução, portanto, neste momento, gostaria de algumas opiniões externas.

Descreverei o objetivo do estudo, nossas restrições, o potencial de confusão e por que acredito que esse "conflito" não é um problema abaixo. Ao ler cada seção, lembre-se da minha pergunta geral:

Existe alguma confusão no design que descrevo?

[Os detalhes deste experimento foram modificados, mas os elementos essenciais necessários para fazer minha pergunta permanecem os mesmos]

Objetivos da experiência

Desejamos determinar se os ensaios escritos por homens brancos são avaliados mais favoravelmente do que os ensaios escritos por mulheres brancas, homens negros ou mulheres negras (a variável de autoria do ensaio ). Também queremos determinar se algum viés encontrado aparece mais em doações de alta ou baixa qualidade (a variável de qualidade ). Finalmente, desejamos incluir ensaios escritos sobre 12 tópicos diferentes (a variável tópico ). No entanto, apenas as duas primeiras variáveis são de interesse substantivo; embora o tópico deva variar entre os ensaios, não estamos substancialmente interessados em saber como as avaliações variam entre os tópicos.

Restrições

Existem limites para o número de participantes e o número de ensaios que podemos coletar. O resultado é que a autoria não pode ser manipulada inteiramente entre os participantes, nem pode ser manipulada inteiramente entre ensaios (ou seja, cada ensaio individual deve ser atribuído a várias condições).
Embora cada redação possa ter versões de homem branco, mulher branca, homem preto e mulher negra, cada redação pode ser apenas de alta e baixa qualidade e ter apenas um tópico. Ou, para colocar essa restrição de uma maneira diferente, nem a qualidade nem o tópico podem ser manipulados nos ensaios, uma vez que são características inerentes a um determinado ensaio.
Devido à fadiga, há um limite para o número de ensaios que um determinado participante pode avaliar.
Todos os ensaios que uma determinada pessoa lê devem ser sobre um único tópico. Em outras palavras, os ensaios não podem ser atribuídos inteiramente aleatoriamente aos participantes, pois precisamos garantir que cada participante leia apenas ensaios de um tópico semelhante.
Cada participante pode ver apenas um ensaio supostamente de autoria de um autor não-branco, pois não queremos que os participantes suspeitem do objetivo do experimento, porque muitos de seus ensaios são escritos por autores negros ou femininos.

O desenho proposto

Meu projeto proposto primeiro manipula cada ensaio em quatro versões diferentes de autoria (homem branco, mulher branca etc.). Quatro ensaios de um tópico semelhante são então usados para definir um "conjunto", cada um dos quais consiste em dois ensaios de alta e dois de baixa qualidade. Cada participante recebe três ensaios de um determinado conjunto, como segue na figura abaixo. Cada participante fornece uma classificação única para cada um dos três ensaios que ele ou ela está designado.

Design da experiência

O potencial conflito

Meu colega acredita que o design acima contém um confusão. O problema, diz ele, é que, quando um ensaio de alta qualidade é designado para ser de autoria de um escritor não-branco, ele é sempre associado a um ensaio de alta qualidade e outro de baixa qualidade (para o Ensaio 1, veja Participantes 1-3 na figura). Por outro lado, quando esse mesmo ensaio é designado para ser de autoria de escritores do sexo masculino, ele é emparelhado com um ensaio de alta qualidade e outro de baixa qualidade três vezes (para o Ensaio 1, Participantes 4-6) e dois ensaios de baixa qualidade, três vezes (para o Ensaio 1, Participantes 7-9).

Existe um problema semelhante para ensaios de baixa qualidade. Quando um ensaio de baixa qualidade tem um autor não-branco, ele sempre é visto com um ensaio de baixa qualidade e um ensaio de alta qualidade (para o Ensaio 3, consulte Participantes 7-9). No entanto, quando esse mesmo ensaio tem um autor branco, ele é visto com um ensaio de alta qualidade e outro de baixa qualidade três vezes (para o Ensaio 3, Participantes 10 a 12) e com dois ensaios de alta qualidade três vezes (para o Ensaio 3, Participantes 1-3).

A razão pela qual os padrões acima podem ser problemáticos é se assumirmos a existência de "efeitos de contraste". Especificamente, se ensaios de alta qualidade forem avaliados mais favoravelmente, em média, quando combinados com dois ensaios de baixa qualidade do que quando combinados com um ensaio de baixa qualidade e um ensaio de alta qualidade (uma suposição razoável), os ensaios masculinos brancos podem receber classificações mais altas do que Ensaios de mulheres brancas, homens negros e mulheres negras por um motivo que não seja a autoria.

Um efeito de contraste para ensaios de alta qualidade pode ou não ser balanceado por um efeito de contraste para ensaios de baixa qualidade; isto é, pode ou não ser o caso de ensaios de baixa qualidade combinados com dois ensaios de alta qualidade serem avaliados de maneira especialmente desfavorável. Independentemente disso, afirma meu colega, o potencial de qualquer tipo de efeito de contraste torna esse design problemático com o objetivo de determinar se os ensaios criados pelos homens brancos são avaliados mais favoravelmente do que os ensaios de outros autores.

Por que acredito que o potencial conflito não é um problema

O que importa para mim é se somos capazes de estimar em que grau os ensaios masculinos brancos são avaliados diferentemente de outros ensaios (ou seja, se podemos estimar nossos efeitos de interesse), mesmo na presença de efeitos de contraste. Por isso, conduzi uma simulação em que simulei 50 conjuntos de dados que continham efeitos de contraste e ajustamos um modelo que testa nossos efeitos de interesse.

O modelo específico é um modelo de efeitos mistos com interceptações aleatórias para ensaio (cada ensaio é avaliado por vários participantes) e participante (cada participante avalia vários ensaios). O nível de redação também contém inclinações aleatórias para raça, gênero e sua interação (ambas as variáveis são manipuladas na redação) e o nível de participante contém uma inclinação aleatória para a qualidade (a qualidade é manipulada dentro dos participantes). Os efeitos do interesse são os efeitos de raça, gênero, a interação entre raça e gênero e as interações de ordem superior entre cada uma dessas variáveis e qualidade. O objetivo dessa simulação era determinar se a introdução de efeitos de contraste nos dados criaria efeitos espúrios de raça, gênero, interação entre raça e gênero, e as interações de ordem superior entre essas variáveis e qualidade. Veja o código abaixo para obter mais detalhes.

De acordo com a simulação, a presença de efeitos de contraste não influencia as estimativas de nenhum dos nossos efeitos de interesse. Além disso, o tamanho do efeito de contraste pode ser estimado no mesmo modelo estatístico que os outros efeitos no design; para mim, isso já sugere que os "efeitos de contraste" identificados pelo meu colega não são confusos. Meu colega, no entanto, permanece cético.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

Mais uma vez, minha pergunta geral é: existe um confusão no design que descrevi? Se não houver um conflito, eu estaria interessado em uma descrição de por que os potenciais "efeitos de contraste" não são confusos, para que eu possa explicar isso ao meu colega.

— Patrick S. Forscher
fonte

Apenas um comentário: como os ensaios serão classificados? Eu pergunto, porque se vários avaliadores serão empregados, então você deve se lembrar que as classificações de diferentes avaliadores não são muito consistentes, portanto, você também deve se lembrar da variabilidade entre os avaliadores.

— Tim

Cada participante fornece uma classificação para cada um dos três ensaios que lhe são atribuídos.

— Patrick S. Forscher

Adicionei os detalhes sobre o procedimento de classificação ao corpo da pergunta.

— Patrick S. Forscher

Para aqueles que não estão familiarizados com lmer (), você pode explicar brevemente a análise e os "efeitos de interesse"?

— Anthony

Sem problemas, @ Anthony. Eu adicionei esses detalhes à pergunta.

— Patrick S. Forscher

Eu ficaria preocupado com uma confusão relacionada - 'Cada participante pode apenas ver um ensaio supostamente de autoria de um autor não-branco, já que não queremos que os participantes suspeitem do objetivo do experimento, porque muitos de seus ensaios são escritos por autores negros ou femininos.

Isso significa que, independentemente do resultado, você não poderá determinar se é devido a uma diferença entre autoria branca masculina e outra autoria ou simplesmente entre 'autoria majoritária' e 'autoria minoritária'.

Se o design mostrado também reflete a ordem da apresentação (presumo que não, mas é melhor verificar), parece ser outro problema.

— Charlie
fonte

A figura não reflete a ordem de apresentação.

— Patrick S. Forscher

Suponho que por autoria "majoritária" e "minoritária", você quer dizer a proporção de ensaios que são uma dada combinação de raça / gênero (ou seja, 2/3 homens brancos, 1/3 outros)? É verdade que, para cada participante, os ensaios masculinos brancos compõem uma proporção maior de ensaios presentes do que outros. No entanto, os homens brancos compõem uma proporção maior da população de redatores que queremos estudar. Decidimos que esse "conflito" (que na verdade pode ser parte do problema) é menos problemático do que criar uma situação artificial na qual existem exatamente metade dos ensaios escritos por homens e por minorias.

— Patrick S. Forscher

O design não seria mais simples se cada participante classificasse apenas dois ensaios (um homem branco e outro)? Os participantes avaliam dois ensaios, mas acreditam que a pilha continha principalmente ensaios masculinos. Por acaso, eles pegaram esses dois por acaso. Os mágicos das cartas chamam isso de "forçar". Se isso exigir muitos participantes, teste menos de 12 tópicos. Doze é muito.

— dragice
fonte

Com esse tamanho de amostra, como você pode concluir alguma coisa? Se você repetisse esse experimento várias vezes, os quatro marcadores que obtiveram um homem branco e um homem negro atribuiriam aos homens brancos melhores notas em uma avaliação de 16.

— Hugh Morris
fonte

Esta é uma versão muito pequena deste estudo. O estudo completo tem 432 pessoas avaliando ensaios.

— Patrick S. Forscher 15/09/17