Lógica por trás do teste F ANOVA em regressão linear simples

Estou tentando entender a lógica por trás do teste F da ANOVA na análise de regressão linear simples. A pergunta que tenho é a seguinte. Quando o valor F, ou seja, MSR/MSEé grande, aceitamos o modelo como significativo. Qual é a lógica por trás disso?

regression anova

— Não posso dizer
fonte

@ Can'tTell Você pode encontrar alguma ajuda sobre a formatação aqui: stats.stackexchange.com/editing-help

No caso mais simples, quando você tem apenas um preditor (regressão simples), digamos , o teste informa se a inclusão de explica uma parte maior da variação observada em em comparação com o modelo nulo (somente interceptação) . A idéia é testar se a variação explicada adicionada (variação total, TSS, variação residual residual, RSS) é grande o suficiente para ser considerada como uma "quantidade significativa". Estamos aqui comparando um modelo com um preditor, ou variável explicativa, com uma linha de base que é apenas "ruído" (nada exceto a grande média). $X_1$ $F$ $X_1$ $Y$

Da mesma forma, você pode calcular uma estatística em uma configuração de regressão múltipla: nesse caso, isso equivale a um teste de todos os preditores incluídos no modelo, o que, sob a estrutura HT, significa que nos perguntamos se algum deles é útil na previsão da resposta. variável. Essa é a razão pela qual você pode encontrar situações em que o teste para todo o modelo é significativo, enquanto alguns dos testes ou associados a cada coeficiente de regressão não são. $F$ $F$ $t$ $z$

A estatística parece $F$

F = \frac{(TSS - RSS) / (p - 1)}{RSS / (n - p)},

$F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)},$

onde é o número de parâmetros de modelo e o número de observações. Esta quantidade deve ser referida a uma distribuição para um valor crítico ou . Aplica-se também ao modelo de regressão simples e obviamente possui alguma analogia com a estrutura clássica da ANOVA. $p$ $n$ $F_{p-1,n-p}$ $p$

Nota. Quando você possui mais de um preditor, pode se perguntar se considerar apenas um subconjunto desses preditores "reduz" a qualidade do ajuste do modelo. Isso corresponde a uma situação em que consideramos modelos aninhados . Essa é exatamente a mesma situação das anteriores, onde comparamos um determinado modelo de regressão com um modelo nulo (sem preditores incluídos). Para avaliar a redução na variância explicada, podemos comparar a soma residual dos quadrados (RSS) de ambos os modelos (ou seja, o que é deixado inexplicável depois que você explica o efeito dos preditores presentes no modelo). Seja e denotam o modelo base (com $\mathcal{M}_0$ $\mathcal{M}_1$ $p$ parâmetros) e um modelo com um preditor adicional ( parâmetros); se o for pequeno, consideraríamos que o modelo menor tem um desempenho tão bom quanto o maior. Uma boa estatística para utilização seria a proporção de tais SS, , ponderados pelos seus graus de liberdade ( para o numerador, e $q=p+1$ $\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0}$ $(\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0})/\text{RSS}_{\mathcal{M}_0}$ $p-q$ $n-p$ para o denominador). Como já foi dito, pode ser demonstrado que essa quantidade segue uma distribuição (ou Fisher-Snedecor) com graus de liberdade e . Se o observado for maior que o quantil correspondente em um dado (normalmente, ), concluiríamos que o modelo maior faz um "trabalho melhor". (Isso não significa que o modelo esteja correto, do ponto de vista prático!) $F$ $p-q$ $n-p$ $F$ $F$ $\alpha$ $\alpha=0.05$

Uma generalização da idéia acima é o teste da razão de verossimilhança .

Se você estiver usando R, poderá jogar com os conceitos acima, como este:

df <- transform(X <- as.data.frame(replicate(2, rnorm(100))), 
                                   y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df))         # "ANOVA view"
summary(lm(y ~ V1, df))       # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0)               # test of V2

— chl
fonte

@chl - Antes de tudo, boa resposta! Isso pode justificar sua própria pergunta, então, deixe-me saber ... mas as descrições que li sobre as tabelas ANOVA para modelos de regressão geralmente se referem a três linhas da tabela: preditores, erros e total. No entanto, a anova()função em R retorna uma linha individual para cada preditor no modelo. Por exemplo, anova(lm0)acima retorna uma linha de V1, V2, e Residuals(e não no total). Como tal, obtemos duas estatísticas F * para este modelo. Como isso altera a interpretação da estatística F * relatada na tabela ANOVA?

— Chase

@ Phase: Sim, a tabela ANOVA que tenho em mente também está organizada dessa maneira. Sinta-se livre para fazer a pergunta; Eu adoraria ouvir o que os outros usuários pensam disso. Eu geralmente uso anova()para comparação GLM. Quando aplicado a um objeto lmou aov, ele exibe efeitos separados (SS) para cada termo no modelo e não mostra o TSS. (Eu costumava aplicar isso de maneira inversa, ou seja, depois de ajustar uma ANOVA aov(), posso usar summary.lm()para ter uma idéia dos contrastes do tratamento.) No entanto, existem problemas sutis entre summary.lm()e summary.aov(), especialmente relacionados ao ajuste seqüencial.

— chl 14/03

@Chase Eu só redescoberto esta resposta muito agradável de @Gavin sobre a Interpretação dos lm de R () de saída .

— chl

@chl - Um pouco de nitpicking de mim. É uma boa resposta sobre a intuição por trás do teste F e como ele "segue na direção certa". Mas isso não explica a lógica do motivo pelo qual você deve escolher esse teste específico. Por exemplo, por que não devemos usar a estatística PRESS? Você insinuou a taxa de probabilidade - que faz ter uma justificação lógica - daí a sua aplicabilidade a todos os modelos, ao contrário do F-teste.

— probabilityislogic

@probabilityislogic Bom ponto. Minha ideia era originalmente mostrar a lógica por trás da comparação de modelos, da qual o modelo de regressão simples é apenas um caso específico (compare com o modelo "muito nulo"), o que também motiva a observação rápida sobre o LRT. Concordo com você, se trabalharmos na linha de uma abordagem pura de Neyman-Pearson para a HT. No entanto, eu estava pensando principalmente em termos da Teoria dos ML, onde os SS têm uma interpretação geométrica direta e onde a comparação de modelos ou o teste F único para uma ANOVA unidirecional (...)

— chl