Na verdade, como você apontou corretamente, no caso de uma única variável categórica (com potencialmente mais de 2 níveis), é realmente a média da referência e os outros são a diferença entre o média desse nível da categoria e média da referência.β^0β^
Se estendermos um pouco o seu exemplo para incluir um terceiro nível na categoria de corrida (digamos asiática ) e escolhermos Branco como referência, você terá:
- β^0=x¯White
- β^Black=x¯Black−x¯White
- β^Asian=x¯Asian−x¯White
Nesse caso, a interpretação de todo o é fácil e é fácil encontrar a média de qualquer nível da categoria. Por exemplo:β^
- x¯Asian=β^Asian+β^0
Infelizmente, no caso de múltiplas variáveis categóricas, a interpretação correta para a interceptação não é mais tão clara (consulte a nota no final). Quando houver n categorias, cada uma com vários níveis e um nível de referência (por exemplo, branco e masculino no seu exemplo), a forma geral da interceptação é:
β^0=∑ni=1x¯reference,i−(n−1)x¯,
que
x¯reference,i is the mean of the reference level of the i-th categorical variable,
x¯ is the mean of the whole data set
Os outros são os mesmos de uma única categoria: são a diferença entre a média desse nível da categoria e a média do nível de referência da mesma categoria.β^
Se voltarmos ao seu exemplo, obteríamos:
- β^0=x¯White+x¯Male−x¯
- β^Black=x¯Black−x¯White
- β^Asian=x¯Asian−x¯White
- β^Female=x¯Female−x¯Male
Você notará que a média das categorias cruzadas (por exemplo, homens brancos ) não está presente em nenhuma das . De fato, você não pode calcular esses meios precisamente a partir dos resultados desse tipo de regressão .β^
A razão para isso é que, o número de variáveis preditoras (ou seja, ) é menor que o número de categorias cruzadas (desde que você tenha mais de uma categoria), portanto, um ajuste perfeito nem sempre é possível. Se voltarmos ao seu exemplo, o número de preditores é 4 (por exemplo, e ) enquanto o número de categorias cruzadas é 6.β^β^0, β^Black, β^Asianβ^Female
Exemplo Numérico
Deixe-me emprestar do @Gung para um exemplo numérico enlatado:
d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
y =c(0, 3, 7, 8, 9, 10))
d
# Sex Race y
# 1 Male White 0
# 2 Female White 3
# 3 Male Black 7
# 4 Female Black 8
# 5 Male Asian 9
# 6 Female Asian 10
Nesse caso, as várias médias que serão calculadas no são:β^
aggregate(y~1, d, mean)
# y
# 1 6.166667
aggregate(y~Sex, d, mean)
# Sex y
# 1 Male 5.333333
# 2 Female 7.000000
aggregate(y~Race, d, mean)
# Race y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5
Podemos comparar estes números com os resultados da regressão:
summary(lm(y~Sex+Race, d))
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 0.6667 0.6667 1.000 0.4226
# SexFemale 1.6667 0.6667 2.500 0.1296
# RaceBlack 6.0000 0.8165 7.348 0.0180
# RaceAsian 8.0000 0.8165 9.798 0.0103
Como você pode ver, os vários estimados a partir da regressão estão alinhados com as fórmulas fornecidas acima. Por exemplo, é fornecido por:
que fornece:β^β^0
β^0=x¯White+x¯Male−x¯
1.5 + 5.333333 - 6.166667
# 0.66666
Nota sobre a escolha do contraste
Uma observação final sobre este tópico, todos os resultados discutidos acima referem-se a regressões categóricas usando tratamento de contraste (o tipo padrão de contraste em R). Existem diferentes tipos de contraste que podem ser usados (principalmente Helmert e soma) e isso mudaria a interpretação dos vários . No entanto, não alteraria as previsões finais das regressões (por exemplo, a previsão para homens brancos é sempre a mesma, independentemente do tipo de contraste que você usa).β^
Meu favorito pessoal é a soma do contraste, pois sinto que a interpretação do generaliza melhor quando existem várias categorias. Para esse tipo de contraste, não há nível de referência, ou melhor, a referência é a média de toda a amostra e você tem o seguinte :β^contr.sumβ^contr.sum
- β^contr.sum0=x¯
- β^contr.sumi=x¯i−x¯
Se voltarmos ao exemplo anterior, você teria:
- β^contr.sum0=x¯
- β^contr.sumWhite=x¯White−x¯
- β^contr.sumBlack=x¯Black−x¯
- β^contr.sumAsian=x¯Asian−x¯
- β^contr.sumMale=x¯Male−x¯
- β^contr.sumFemale=x¯Female−x¯
Você notará que, como Branco e Masculino não são mais níveis de referência, seus não são mais 0. O fato de serem 0 é específico para o tratamento de contraste.β^contr.sum