Explicar o ajuste do modelo, em inglês simples

14

Lendo sobre métodos e resultados de análises estatísticas, especialmente em epidemiologia, muitas vezes ouço sobre ajustes ou controle dos modelos.

Como você explicaria, para um não estatístico, o propósito disso? Como você interpreta seus resultados após controlar determinadas variáveis?

Um pequeno passo a passo em Stata ou R, ou um ponteiro para um on-line, seria uma verdadeira jóia.

regression modeling epidemiology

— radek
fonte

29

Mais fácil de explicar por meio de um exemplo:

Imagine o estudo constatando que as pessoas que assistiram à final da Copa do Mundo tiveram maior probabilidade de sofrer um ataque cardíaco durante a partida ou nas 24 horas subsequentes do que aquelas que não assistiram. O governo deveria proibir o futebol da TV? Mas os homens são mais propensos a assistir futebol do que as mulheres, e os homens também têm mais chances de sofrer um ataque cardíaco do que as mulheres. Portanto, a associação entre assistir futebol e ataques cardíacos pode ser explicada por um terceiro fator , como o sexo, que afeta os dois. (Os sociólogos distinguiriam aqui entre gênero , uma construção cultural associada à observação de futebol e sexo, uma categoria biológica associada à incidência de ataque cardíaco, mas as duas estão claramente fortemente correlacionadas, por isso vou ignorar essa distinção por simplicidade.)

Estatísticos, e especialmente epidemiologistas, chamam esse terceiro fator de confusão , e o fenômeno, confusão . A maneira mais óbvia de remover o problema é observar a associação entre assistir ao futebol e incidência de ataques cardíacos em homens e mulheres separadamente, ou no jargão, para estratificar por sexo. Se acharmos que a associação (se ainda existe) é semelhante nos dois sexos, poderemos optar por combinar as duas estimativas da associação entre os dois sexos. Diz-se que a estimativa resultante da associação entre assistir futebol e incidência de ataques cardíacos é ajustada ou controlada por sexo.

Provavelmente, também gostaríamos de controlar outros fatores da mesma maneira. A idade é outra óbvia (de fato, os epidemiologistas estratificam ou ajustam / controlam quase todas as associações por idade e sexo). A classe socioeconômica é provavelmente outra. Outros podem ficar mais complicados, por exemplo, devemos ajustar o consumo de cerveja enquanto assistimos à partida? Talvez sim, se estivermos interessados no efeito do estresse de assistir à partida sozinhos; mas talvez não, se considerarmos proibir a transmissão de futebol da Copa do Mundo e isso também reduziria o consumo de cerveja. Se uma variável é confundida ou não, depende exatamente de qual pergunta queremos abordar, e isso pode exigir um pensamento muito cuidadoso e se tornar bastante complicado e até controverso.

Claramente, então, podemos desejar ajustar / controlar vários fatores, alguns dos quais podem ser medidos em várias categorias (por exemplo, classe social), enquanto outros podem ser contínuos (por exemplo, idade). Poderíamos lidar com os contínuos dividindo-os em grupos (de idade), transformando-os em grupos categóricos. Digamos que tenhamos 2 sexos, 5 grupos de classe social e 7 grupos etários. Podemos agora observar a associação entre assistir futebol e incidência de ataques cardíacos em 2 × 5 × 7 = 70 estratos. Mas se o nosso estudo for bastante pequeno, portanto alguns desses estratos contêm muito poucas pessoas, teremos problemas com essa abordagem. E, na prática, podemos desejar ajustar uma dúzia ou mais de variáveis. Uma maneira alternativa de ajustar / controlar variáveis que é particularmente útil quando existem muitas delas é fornecida pela análise de regressãocom várias variáveis dependentes, às vezes conhecidas como análise de regressão multivariável . (Existem diferentes tipos de modelos de regressão, dependendo do tipo de variável de resultado: regressão de mínimos quadrados, regressão logística, regressão de riscos proporcionais (Cox) ...). Em estudos observacionais, ao contrário de experimentos, quase sempre queremos ajustar muitos fatores de confusão em potencial; portanto, na prática, o ajuste / controle de fatores de confusão é geralmente feito por análise de regressão, embora existam outras alternativas também, como padronização, ponderação, propensão pontuação correspondente ...

— uma parada
fonte

3

+1 (embora mereça pelo menos +3) - muito completo e abrangente. Tornou a questão toda muito mais clara para mim. Obrigado!

— Radek

"Uma maneira alternativa de ajustar / controlar variáveis que é particularmente útil quando existem muitas delas é fornecida pela análise de regressão com múltiplas variáveis dependentes, às vezes conhecidas como análise de regressão multivariável". isso deveria ser "independente" ou estou entendendo mal? e há um jargão mais comum para isso, "regressão múltipla"? (eu sei que é discutível)

— Richard DiSalvo

10

Onestop explicou muito bem, vou apenas dar um exemplo simples de R com dados compostos. Digamos que x é peso e y é altura, e queremos descobrir se há uma diferença entre homens e mulheres:

set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)

Você pode ver que, sem controlar o peso (em anova (lm1)), há muito pouca diferença entre os sexos, mas quando o peso é incluído como covariável (controlado em lm2), a diferença se torna mais aparente.

#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)

— Matt Albrecht
fonte