Por que algumas pessoas testam suposições de modelos semelhantes a regressão em seus dados brutos e outras testam-nas no residual?

Sou estudante de doutorado em psicologia experimental e tento muito melhorar minhas habilidades e conhecimentos sobre como analisar meus dados.

Até o meu quinto ano em psicologia, eu pensava que os modelos semelhantes à regressão (por exemplo, ANOVA) assumem o seguinte:

normalidade dos dados
homogeneidade de variação para os dados e assim por diante

Meus cursos de graduação me levaram a acreditar que as suposições eram sobre os dados. No entanto, no meu quinto ano, alguns de meus instrutores enfatizaram o fato de que as suposições são sobre o erro (estimado pelos resíduos) e não os dados brutos.

Recentemente, conversei sobre a questão das suposições com alguns de meus colegas que também admitiram ter descoberto a importância de verificar as suposições sobre o resíduo apenas nos últimos anos de universidade.

Se bem entendi, os modelos semelhantes a regressão fazem suposições sobre o erro. Portanto, faz sentido verificar as suposições sobre os resíduos. Se sim, por que algumas pessoas verificam as suposições nos dados brutos? É porque esse procedimento de verificação se aproxima do que obteríamos verificando o residual?

Eu ficaria muito interessado em uma discussão sobre esse assunto com algumas pessoas que têm um conhecimento mais preciso do que meus colegas e eu. Agradeço antecipadamente suas respostas.

— Psychokwak
fonte

Respostas:

Basicamente, você está no caminho certo. Você encontrará uma discussão sobre o aspecto da normalidade em Normalidade da variável dependente = normalidade dos resíduos?

Algumas suposições do modelo linear clássico são realmente sobre erros (usando resíduos como realização deles):

Eles não estão correlacionados? (Relevante para inferência e otimização dos estimadores OLS)
Eles têm igual variação? (Relevante para inferência e otimização dos estimadores OLS)
Eles estão centrados em torno de 0? (Pressuposto essencial para obter estimadores e previsões imparciais)
Se a amostra é muito pequena: são normais ou pelo menos simetricamente distribuídas? (Relevante para inferência)

Outras condições são sobre "dados brutos":

Não existem valores extremos brutos nos regressores? (Observações de alta alavancagem podem destruir todo o modelo)
Não existe multicolinearidade perfeita? (Causaria problemas computacionais, pelo menos em alguns pacotes de software)

Agora, seu professor de graduação também pode estar correto:

Talvez você estivesse se concentrando em testes univariados, como o teste t de uma amostra. Lá, as suposições são sobre os dados brutos.
$R^2$
Como você verificaria a homoscedasticidade etc. com base em dados brutos? Talvez você tenha entendido errado ele ou ela.

— Michael M
fonte

Ok, muito obrigado pela sua resposta e pelo link que é muito útil. Alguns de meus colegas e eu acreditamos até recentemente que os dados brutos deveriam ter variações iguais. Como você disse, talvez tenhamos perdido algo em nossos cursos. Em alguns livros, podemos ler o seguinte:

— Psychokwak 26/11/13

"Os procedimentos estatísticos mais comuns fazem duas suposições relevantes para este tópico: (a) uma suposição de que as variáveis (ou seus termos de erro, mais tecnicamente) são normalmente distribuídas; e (b) uma suposição de igualdade de variância (homoscedasticidade ou homogeneidade variação), o que significa que a variação da variável permanece constante acima da faixa observada de alguma outra variável ". Isso significa que quando alguém fala sobre "variável", ele ou ela fala sistematicamente sobre "seus termos de erro"? Se sim, estou bem com isso, mas sem menção explícita, está longe de ser óbvio (pelo menos para mim).

— Psychokwak

Finalmente, tenho uma última pergunta sobre suas respostas. Se o teste t e a ANOVA são casos particulares da regressão, por que as suposições são sobre os dados em um teste t de uma amostra? Obrigado novamente por sua resposta útil.

— Psychokwak

Para responder ao seu último comentário: O teste t de uma amostra também pode ser visto como um caso especial de regressão. O modelo consiste simplesmente na interceptação (= média) e no termo do erro, ou seja, a resposta é um erro alterado. Como as mudanças são irrelevantes para qualquer suposição, é equivalente a falar sobre dados ou resíduos.

— Michael M

Acho que a diferenciação entre os resíduos e os dados brutos não ajuda, pois ambos se referem mais à sua amostra real e não à distribuição da população subjacente. É melhor considerar alguns requisitos como "requisitos dentro do grupo" e outros "entre premissas do grupo".

Por exemplo, a homonenidade da variação é uma "suposição entre grupos", pois indica que a variação dentro do grupo é a mesma para todos os grupos.

Normalidade é uma suposição "dentro do grupo" que requer que dentro de cada grupo y seja distribuído normalmente.

Observe que ter normalidade em toda a sua produção geralmente significa que você não tem efeito - observe a distribuição de gênero sem diferenciar entre mulheres e homens. Não será normalmente distribuído, devido ao forte efeito de gênero. Mas, dentro de cada gênero, isso vale muito bem.

— Erik
fonte

Obrigado pela sua resposta também. É uma maneira interessante de ver a pergunta. Eu nunca tinha pensado na normalidade dessa maneira (isto é, "que ter normalidade em toda a matéria-prima y geralmente significa que [não] temos nenhum efeito").

— Psychokwak