O @NickCox fez um bom trabalho falando sobre exibições de resíduos quando você tem dois grupos. Deixe-me abordar algumas das perguntas explícitas e suposições implícitas que estão por trás desse tópico.
A pergunta é: "como você testa suposições de regressão linear, como a homoscedasticidade, quando uma variável independente é binária?" Você tem um modelo de regressão múltipla . Um modelo de regressão (múltiplo) assume que há apenas um termo de erro, que é constante em todos os lugares. Não é muito significativo (e você não tem) verificar a heterocedasticidade de cada preditor individualmente. É por isso que, quando temos um modelo de regressão múltipla, diagnosticamos heterocedasticidade a partir de gráficos dos resíduos versus os valores previstos. Provavelmente, o gráfico mais útil para esse fim é um gráfico de localização da escala (também chamado de 'nível de dispersão'), que é um gráfico da raiz quadrada do valor absoluto dos resíduos versus os valores previstos. Para ver exemplos,O que significa ter "variação constante" em um modelo de regressão linear?
Da mesma forma, você não precisa verificar os resíduos de cada preditor quanto à normalidade. (Sinceramente, nem sei como isso funcionaria.)
O que você pode fazer com gráficos de resíduos em relação a preditores individuais é verificar se a forma funcional está especificada corretamente. Por exemplo, se os resíduos formarem uma parábola, há alguma curvatura nos dados que você perdeu. Para ver um exemplo, veja o segundo gráfico na resposta do @ Glen_b aqui: Verificando a qualidade do modelo em regressão linear . No entanto, esses problemas não se aplicam a um preditor binário.
Pelo que vale a pena, se você tiver apenas preditores categóricos, poderá testar a heterocedasticidade. Você acabou de usar o teste de Levene. Eu discuto aqui: Por que o teste de Levene da igualdade de variâncias, em vez da razão F? Em R você usa ? LeveneTest da embalagem do carro.
Editar: para ilustrar melhor o ponto em que observar um gráfico dos resíduos versus uma variável preditora individual não ajuda quando você tem um modelo de regressão múltipla, considere este exemplo:
set.seed(8603) # this makes the example exactly reproducible
x1 = sort(runif(48, min=0, max=50)) # here is the (continuous) x1 variable
x2 = rep(c(1,0,0,1), each=12) # here is the (dichotomous) x2 variable
y = 5 + 1*x1 + 2*x2 + rnorm(48) # the true data generating process, there is
# no heteroscedasticity
mod = lm(y~x1+x2) # this fits the model
Você pode ver no processo de geração de dados que não há heterocedasticidade. Vamos examinar os gráficos relevantes do modelo para ver se eles implicam heterocedasticidade problemática:
Não, nada para se preocupar. No entanto, vejamos o gráfico dos resíduos versus a variável preditora binária individual para ver se parece que há heterocedasticidade lá:
Ah, parece que pode haver um problema. Sabemos pelo processo de geração de dados que não há heterocedasticidade, e os gráficos principais para explorar isso também não mostraram, então o que está acontecendo aqui? Talvez essas parcelas ajudem:
x1
e x2
não são independentes um do outro. Além disso, as observações x2 = 1
estão nos extremos. Eles têm mais influência, então seus resíduos são naturalmente menores. No entanto, não há heterocedasticidade.
A mensagem principal: sua melhor aposta é diagnosticar apenas a heterocedasticidade a partir das plotagens apropriadas (os resíduos versus a plotagem ajustada e a plotagem no nível de dispersão).