Resumo de cinco pontos
Sim, a ideia é fornecer um resumo rápido da distribuição. Deve ser aproximadamente simétrico em relação à média, a mediana deve estar próxima de 0, os valores 1T e 3T devem idealmente ser valores aproximadamente semelhantes.
Coeficientes eβi^s
Cada coeficiente no modelo é uma variável aleatória Gaussiana (Normal). O é a estimativa da média da distribuição dessa variável aleatória, e o erro padrão é a raiz quadrada da variação dessa distribuição. É uma medida da incerteza na estimativa do .βi^βi^
Você pode ver como elas são computadas (bem as fórmulas matemáticas usadas) na Wikipedia . Observe que qualquer programa de estatísticas que se preze não usará as equações matemáticas padrão para calcular o pois fazê-las em um computador pode levar a uma grande perda de precisão nos cálculos.βi^
testatísticas
As estatísticas são as estimativas ( ) divididas por seus erros padrão ( ), por exemplo, . Supondo que você tenha o mesmo modelo em objeto que seu Q:tβi^σi^ti=βi^σi^mod
> mod <- lm(Sepal.Width ~ Petal.Width, data = iris)
os valores relatórios R são calculados como:t
> tstats <- coef(mod) / sqrt(diag(vcov(mod)))
(Intercept) Petal.Width
53.277950 -4.786461
Onde coef(mod)
estão e fornecem as raízes quadradas dos elementos diagonais da matriz de covariância dos parâmetros do modelo, que são os erros padrão dos parâmetros ( ).βi^sqrt(diag(vcov(mod)))
σi^
O valor p é a probabilidade de atingir atão grande quanto ou maior que o valor absoluto t observado, se a hipótese nula ( ) for verdadeira, onde é . Eles são calculados como (usando de cima):|t|H0H0βi=0tstats
> 2 * pt(abs(tstats), df = df.residual(mod), lower.tail = FALSE)
(Intercept) Petal.Width
1.835999e-98 4.073229e-06
Portanto, calculamos a probabilidade da cauda superior de alcançar os valores que fizemos a partir de uma distribuição com graus de liberdade iguais aos graus residuais de liberdade do modelo. Isso representa a probabilidade de atingir um valor superior aos valores absolutos dos s observados . Ele é multiplicado por dois, por causa do campo de pode ser grande na direcção negativa demasiado.ttttt
Erro padrão residual
O erro padrão residual é uma estimativa do parâmetro . A suposição em mínimos quadrados comuns é que os resíduos são descritos individualmente por uma distribuição Gaussiana (normal) com média 0 e desvio padrão . O refere-se à suposição de variância constante; cada resíduo tem a mesma variação e essa variação é igual a .σσσσ2
ajustadoR2
ajustado é calculado como:R2
1−(1−R2)n−1n−p−1
O ajustado é o mesmo que , mas ajustado pela complexidade (isto é, o número de parâmetros) do modelo. Dado um modelo com um único parâmetro, com um determinado , se adicionarmos outro parâmetro a esse modelo, o do novo modelo precisará aumentar, mesmo que o parâmetro adicionado não tenha poder estatístico. O ajustado é responsável por isso, incluindo o número de parâmetros no modelo.R2R2R2R2R2
FEstatística
O é a relação de dois desvios ( ), a variância explicada pelos parâmetros do modelo (soma dos quadrados de regressão, SSR) e a variância residual ou inexplicada (soma dos quadrados dos erros, SSE). Você pode ver isso melhor se obtivermos a tabela ANOVA para o modelo via :FSSR/SSEanova()
> anova(mod)
Analysis of Variance Table
Response: Sepal.Width
Df Sum Sq Mean Sq F value Pr(>F)
Petal.Width 1 3.7945 3.7945 22.91 4.073e-06 ***
Residuals 148 24.5124 0.1656
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Os são os mesmos na saída ANOVA e na saída. A coluna contém as duas variações e . Podemos calcular a probabilidade de obter um tão grande sob a hipótese nula de nenhum efeito, a partir de uma distribuição com 1 e 148 graus de liberdade. É o que é relatado na coluna final da tabela ANOVA. No caso simples de um único preditor contínuo (como no seu exemplo), , e é por isso que os valores-p são os mesmos. Essa equivalência é válida apenas neste caso simples.F3,7945 / 0,1656 = 22,91 F F F = t 2 P e t a l . W i d t hsummary(mod)
Mean Sq
3.7945/0.1656=22.91FFF=t2Petal.Width