Como são todas as versões do mesmo método estatístico básico?
Como são todas as versões do mesmo método estatístico básico?
Respostas:
Considere que todos eles podem ser escritos como uma equação de regressão (talvez com interpretações ligeiramente diferentes das formas tradicionais).
Regressão:
teste t:
ANOVA:
A regressão prototípica é conceituada com como uma variável contínua. No entanto, a única suposição que é realmente feita sobre X é que ele é um vetor de constantes conhecidas. Pode ser uma variável contínua, mas também pode ser um código fictício (ou seja, um vetor de 0 e 1 que indica se uma observação é membro de um grupo indicado - por exemplo, um grupo de tratamento). Assim, na segunda equação, X poderia ser um código fictício, e o valor p seria o mesmo de um teste t em sua forma mais tradicional.
O significado dos betas seria diferente aqui, no entanto. Nesse caso, seria a média do grupo controle (para o qual as entradas na variável dummy seriam 0 ') e β 1 seria a diferença entre a média do grupo de tratamento e a média do controle grupo.
Agora, lembre-se de que é perfeitamente razoável ter / executar uma ANOVA com apenas dois grupos (embora um teste t seja mais comum), e você tem todos os três conectados. Se você prefere ver como isso funcionaria se você tivesse uma ANOVA com 3 grupos; seria: Observe que quando você temgrupos g , você temcódigos fictícios g - 1 para representá-los. O grupo de referência (normalmente o grupo de controle) é indicado com 0 paratodos oscódigos fictícios (nesse caso, tanto o código fictício 1 quanto o código fictício 2). Nesse caso, você não gostaria de interpretar os valores p dos testes t para esses betas que vêm com saída estatística padrão - eles indicam apenas se o grupo indicado difere do grupo controlequando avaliado isoladamente.
À luz dos comentários do @ whuber abaixo, eles também podem ser representados através de equações da matriz:
Representados dessa maneira, Y & ε são vetores de comprimento N e β é um vetor de comprimento p + 1 . X agora é uma matriz com N linhas e ( p + 1 ) colunas. Em uma regressão prototípica, você tem p variáveis X contínuas e a interceptação. Assim, seu X
Se você estiver representando uma ANOVA com grupos dessa maneira, lembre-se de que você teria variáveis fictícias g - 1 indicando os grupos, com o grupo de referência indicado por uma observação com 0 em cada variável fictícia. Como acima, você ainda teria um intercepto. Assim, p = g - 1 .
Todos eles podem ser escritos como casos particulares do modelo linear geral.
O teste t é um caso de duas amostras de ANOVA. Se você quadrado a estatística do teste t, obtém o correspondente na ANOVA.
Um modelo ANOVA é basicamente apenas um modelo de regressão em que os níveis dos fatores são representados por variáveis fictícias (ou indicadores ) .
Portanto, se o modelo para um teste t é um subconjunto do modelo ANOVA e ANOVA é um subconjunto do modelo de regressão múltipla, a própria regressão (e outras coisas além da regressão) é um subconjunto do modelo linear geral , que estende a regressão a um especificação mais geral do termo de erro do que o caso de regressão habitual (o que é 'independente' e 'igual-variância'), e para traçar o .
Aqui está um exemplo mostrando a equivalência do comum (equal-variância) dois sample- análise e um teste de hipótese em um modelo de regressão, feito em R (os olhares de dados reais para ser emparelhado, de modo que este não é realmente uma análise adequada) :
> t.test(extra ~ group, var.equal=TRUE, data = sleep)
Two Sample t-test
data: extra by group
t = -1.8608, df = 18, p-value = 0.07919
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.363874 0.203874
sample estimates:
mean in group 1 mean in group 2
0.75 2.33
Observe o valor de p de 0,079 acima. Aqui está o one-way anova:
> summary(aov(extra~group,sleep))
Df Sum Sq Mean Sq F value Pr(>F)
group 1 12.48 12.482 3.463 0.0792
Residuals 18 64.89 3.605
Agora para a regressão:
> summary(lm(extra ~ group, data = sleep))
(alguma saída removida)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7500 0.6004 1.249 0.2276
group2 1.5800 0.8491 1.861 0.0792 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared: 0.1613, Adjusted R-squared: 0.1147
F-statistic: 3.463 on 1 and 18 DF, p-value: 0.07919
Compare o valor-p na linha 'group2' e também o valor-p para o teste F na última linha. Para um teste bicaudal, estes são os mesmos e ambos correspondem ao resultado do teste t.
Além disso, o coeficiente para o 'grupo2' representa a diferença de médias para os dois grupos.
Esta resposta que eu postei anteriormente é um pouco relevante, mas essa pergunta é um pouco diferente.
Anova é semelhante a um teste t para igualdade de médias sob o pressuposto de variações desconhecidas, mas iguais entre os tratamentos. Isso ocorre porque no ANOVA MSE é idêntico à variação combinada usada no teste t. Existem outras versões do teste t, como uma para variações não iguais e o teste t em pares. Nesta visão, o teste t pode ser mais flexível.