P: "... como interpreto o valor x2" Alto "? Por exemplo, que efeito os x2s" altos "têm sobre a variável de resposta no exemplo dado aqui?
R: Sem dúvida, você notou que não há menção de x2 = "Alto" na saída. No momento, x2High é escolhido como o "caso base". Isso porque você ofereceu uma variável de fator com a codificação padrão para os níveis, apesar de uma ordem que teria sido L / M / H mais naturalmente para a mente humana. Mas "H", sendo lexicamente antes de "L" e "M" no alfabeto, foi escolhido por R como o caso base.
Como 'x2' não foi ordenado, cada um dos contrastes relatados foi relativo a x2 = "Alto" e, portanto, x2 == "Baixo" foi estimado em -0,78 em relação a x2 = "Alto". No momento, o Intercepto é o valor estimado de "Y" quando x2 = "Alto" e x1 = 0. Você provavelmente deseja executar novamente sua regressão depois de alterar a ordem dos níveis (mas não fazendo o fator ordenado).
x2a = factor(x2, levels=c("Low", "Medium", "High"))
Em seguida, suas estimativas "Média" e "Alta" estarão mais alinhadas com o que você espera.
Editar: existem arranjos de codificação alternativos (ou arranjos mais precisos da matriz do modelo.) A opção padrão para contrastes em R é "contrastes de tratamento" que especifica um nível de fator (ou uma combinação específica de níveis de fator) como o nível de referência e os relatórios diferenças médias estimadas para outros níveis ou combinações. No entanto, você pode ter o nível de referência como a média geral forçando o Intercept a ser 0 (não recomendado) ou usando uma das outras opções de contraste:
?contrasts
?C # which also means you should _not_ use either "c" or "C" as variable names.
Você pode escolher diferentes contrastes para diferentes fatores, embora isso pareça impor uma carga interpretativa adicional. O S-Plus usa os contrastes de Helmert por padrão, e o SAS usa os contrastes de tratamento, mas escolhe o último nível de fator em vez do primeiro como o nível de referência.