Entendo que isso significa que o modelo é ruim em prever pontos de dados individuais, mas estabeleceu uma tendência firme (por exemplo, y sobe quando x sobe).
Entendo que isso significa que o modelo é ruim em prever pontos de dados individuais, mas estabeleceu uma tendência firme (por exemplo, y sobe quando x sobe).
Respostas:
Isso significa que você pode explicar uma pequena parte da variação nos dados. Por exemplo, você pode estabelecer que um diploma universitário afeta os salários, mas, ao mesmo tempo, é apenas um pequeno fator. Existem muitos outros fatores que afetam seu salário, e a contribuição do diploma é muito pequena, mas detectável.
Em termos práticos, isso poderia significar que, em média, o diploma universitário aumenta o salário em US $ 500 por ano, enquanto o desvio padrão dos salários das pessoas é de US $ 10.000. Portanto, muitas pessoas com formação superior têm salários mais baixos do que os sem instrução e o valor do seu modelo para previsão é baixo.
Significa "erro irredutível é alto", ou seja, a melhor coisa que podemos fazer (com o modelo linear) é limitada. Por exemplo, o seguinte conjunto de dados:
data=rbind(
cbind(1,1:400),
cbind(2,200:400),
cbind(3,300:400))
plot(data)
Observe que o truque neste conjunto de dados é que, dado um valor , existem muitos valores diferentes , que não podemos fazer uma boa previsão para satisfazer todos eles. Ao mesmo tempo, existem correlações lineares "fortes" entre e . Se ajustarmos um modelo linear, obteremos coeficientes significativos, mas R baixo ao quadrado.
fit=lm(data[,2]~data[,1])
summary(fit)
abline(fit)
Call:
lm(formula = data[, 2] ~ data[, 1])
Residuals:
Min 1Q Median 3Q Max
-203.331 -59.647 -1.252 68.103 195.669
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 123.910 8.428 14.70 <2e-16 ***
data[, 1] 80.421 4.858 16.56 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 93.9 on 700 degrees of freedom
Multiple R-squared: 0.2814, Adjusted R-squared: 0.2804
F-statistic: 274.1 on 1 and 700 DF, p-value: < 2.2e-16
O que significa que uma regressão linear seja estatisticamente significativa, mas tem um quadrado ao quadrado muito baixo?
Isso significa que existe um relacionamento linear entre a variável independente e dependente, mas que não vale a pena falar sobre esse relacionamento.
A significância do relacionamento, no entanto, depende muito do que você está examinando, mas, geralmente, você pode entender que o significado estatístico não deve ser confundido com relevância.
Com um tamanho de amostra suficientemente grande, até os relacionamentos mais triviais podem ser estatisticamente significativos.
Outra maneira de expressar isso é que isso significa que você pode prever com confiança uma mudança no nível da população, mas não no nível individual. ou seja, existe uma grande variação nos dados individuais, mas quando uma amostra grande o suficiente é usada, um efeito subjacente pode ser visto em geral. É uma das razões pelas quais alguns conselhos de saúde do governo são inúteis para o indivíduo. Em algum momento, os governos sentem a necessidade de agir, porque podem ver que mais de algumas atividades levam a mais mortes em geral na população. Eles produzem conselhos ou uma política que 'salva' essas vidas. No entanto, devido à alta variação nas respostas individuais, é muito improvável que um indivíduo veja pessoalmente algum benefício (ou, pior ainda, devido a condições genéticas específicas, sua própria saúde teria melhorado se obedecesse ao conselho oposto, mas isso está oculto na agregação populacional). Se o indivíduo obtém benefício (por exemplo, prazer) da atividade "prejudicial", seguir os conselhos pode significar que ele renuncia a esse prazer definido ao longo da vida, mas, na verdade, não muda pessoalmente se sofreria ou não da doença.