A função lm em R pode imprimir a covariância estimada dos coeficientes de regressão. O que essas informações nos fornecem? Agora podemos interpretar melhor o modelo ou diagnosticar problemas que possam estar presentes no modelo?
A função lm em R pode imprimir a covariância estimada dos coeficientes de regressão. O que essas informações nos fornecem? Agora podemos interpretar melhor o modelo ou diagnosticar problemas que possam estar presentes no modelo?
Respostas:
O uso mais básico da matriz de covariância é obter os erros padrão das estimativas de regressão. Se o pesquisador estiver interessado apenas nos erros padrão dos parâmetros de regressão individuais, eles podem simplesmente pegar a raiz quadrada da diagonal para obter os erros padrão individuais.
No entanto, muitas vezes você pode estar interessado em uma combinação linear de parâmetros de regressão. Por exemplo, se você tem uma variável indicadora para um determinado grupo, pode estar interessado na média do grupo, que seria
.
Então, para encontrar o erro padrão da média estimada desse grupo, você teria
,
onde é um vetor de seus contrastes e S é a matriz de covariância. No nosso caso, se tivermos apenas a covariável adição "grp", então X = ( 1 , 1 ) ( 1 para a interceptação, 1 para pertencer ao grupo).
Além disso, a matriz de covariância (ou mais acima, a matriz de correlação, que é identificada exclusivamente a partir da matriz de covariância, mas não vice-versa) pode ser muito útil para certos diagnósticos de modelos. Se duas variáveis são altamente correlacionadas, uma maneira de pensar é que o modelo está tendo problemas para descobrir qual variável é responsável por um efeito (porque elas são muito relacionadas). Isso pode ser útil para uma variedade de casos, como escolher subconjuntos de covariáveis para usar em um modelo preditivo; se duas variáveis estiverem altamente correlacionadas, convém usar apenas uma das duas em seu modelo preditivo.
Existem dois "tipos" de coeficientes de regressão:
.
é elevado em relação ao seu erro padrão", e sua covariância ser "alta" média "de alta em relação ao produto de seus erros padrão." Uma maneira de suavizar esses soluços interpretativos é padronizar cada entrada de regressão dividindo-a pelo seu desvio padrão (ou dois desvios padrão em alguns casos).
Quanto ao que é realmente usado, a resposta de Cliff AB é um bom resumo.