Quão bem a regressão múltipla pode realmente “controlar” as covariáveis?

Todos conhecemos estudos observacionais que tentam estabelecer um nexo de causalidade entre um preditor não aleatório X e um resultado, incluindo todos os possíveis fatores de confusão imagináveis em um modelo de regressão múltipla. Ao “controlar” todos os fatores de confusão, diz o argumento, isolamos o efeito do preditor de interesse.

Estou desenvolvendo um desconforto crescente com essa idéia, com base principalmente em observações indiretas feitas por vários professores das minhas aulas de estatística. Eles se enquadram em algumas categorias principais:

1. Você só pode controlar as covariáveis que pensa e mede.
Isso é óbvio, mas me pergunto se é realmente o mais pernicioso e intransponível de todos.

2. A abordagem levou a erros feios no passado.

Por exemplo, Petitti e Freedman (2005) discutem como décadas de estudos observacionais ajustados estatisticamente chegaram a conclusões desastrosamente incorretas sobre o efeito da terapia de reposição hormonal no risco de doença cardíaca. RCTs posteriores encontraram efeitos quase opostos.

3. A relação preditor-resultado pode se comportar de maneira estranha quando você controla as covariáveis.

Yu-Kang Tu, Gunnell e Gilthorpe (2008) discutem algumas manifestações diferentes, incluindo o Paradoxo de Lord, Paradoxo de Simpson e variáveis supressoras.

4. É difícil para um único modelo (regressão múltipla) ajustar adequadamente as covariáveis e modelar simultaneamente a relação preditor-resultado.

Eu ouvi isso como uma razão para a superioridade de métodos como escores de propensão e estratificação em fatores de confusão, mas não tenho certeza se realmente entendi.

5. O modelo ANCOVA exige que a covariável e preditora de interesse seja independente.

Obviamente, ajustamos os fatores de confusão precisamente PORQUE eles estão correlacionados com o preditor de interesse; portanto, ao que parece, o modelo não terá êxito nos casos exatos em que mais queremos. O argumento é que o ajuste é apropriado apenas para redução de ruído em ensaios randomizados. Miller e Chapman, 2001 fazem uma ótima revisão.

Então, minhas perguntas são:

Quão sérios são esses problemas e outros que talvez eu não conheça?
Quão assustado devo ter quando vejo um estudo que "controla tudo"?

(Espero que esta questão não esteja se aventurando muito no território de discussão e, com prazer, convide sugestões para melhorá-la.)

EDIT : Adicionei o ponto 5 depois de encontrar uma nova referência.

multiple-regression ancova observational-study

— meia passagem
fonte

Para a pergunta 2, acho que 'controles para tudo' é uma questão mais geral de especificação. Tenho problemas para pensar em uma situação em que um modelo paramétrico está especificado corretamente. Dito isto, um modelo simplifica a realidade, e é aí que reside a arte desse tipo de estudo. O pesquisador deve decidir o que é e o que não é importante no modelo.

— Kirk

Com esta pergunta você me fez um fã.

— Rolando2

Eu acho que isso levanta alguns pontos muito bons; mas acho que as respostas estão fora do campo estritamente estatístico. Assim, qualquer resultado estatístico é mais valioso se 1) É replicado 2) É substancialmente viável etc. Veja também os critérios MAGIC e o argumento geral que Abelson faz.

— Peter Flom - Restabelece Monica

O ponto 5 é absolutamente falso. O artigo de Miller & Chapman está completamente errado, ponto final.

— Jake Westfall

@ meia passagem Não tenho certeza do que mais dizer sobre isso, exceto que a alegação central do trabalho - ou seja, que o preditor focal X e a covariável C devem ser não correlacionados - simplesmente não é verdadeira. Observe que a ANCOVA é apenas um modelo de regressão; portanto, essa mesma linha de raciocínio aparentemente invalidaria quase todos os usos reais da regressão múltipla também! Eu tive alguma discussão Twitter sobre esse papel horrível há vários meses: twitter.com/CookieSci/status/902298218494644228

— Jake Westfall

Respostas:

Talvez haja uma resposta amplamente aceita, não estatística, a - que suposições é preciso fazer para afirmar que realmente controlamos as covariáveis.

Isso pode ser feito com os gráficos causais da Judea Pearl e com o cálculo .

Veja http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf , além de outros materiais em seu site.

Agora, como estatísticos, sabemos que todos os modelos são falsos, e a verdadeira questão estatística é a suposição identificada que provavelmente não está muito errada, de modo que nossa resposta é aproximadamente OK. Pearl está ciente disso e o discute em seu trabalho, mas talvez não de forma explícita e com freqüência suficiente para evitar frustrar muitos estatísticos com sua pretensão de ter uma resposta (o que acredito que ele faz para quais suposições são necessárias? ).

(Atualmente, a ASA está oferecendo um prêmio por material didático para incluir esses métodos nos cursos de estatística, veja aqui )

— phaneron
fonte

Ótima referência a uma representação gráfica elegante, obrigado.

— meia-passagem

Resposta à pergunta 1:

A magnitude da seriedade é melhor avaliada de maneira contextual (isto é, deve considerar todos os fatores que contribuem para a validade).
A magnitude da seriedade não deve ser avaliada de maneira categórica. Um exemplo é a noção de uma hierarquia de inferência para os desenhos de estudo (por exemplo, os relatórios de casos são mais baixos e os ECRs são categoricamente mais altos). Esse tipo de esquema é frequentemente ensinado nas escolas de medicina como uma heurística fácil para identificar rapidamente evidências de alta qualidade. O problema com esse tipo de pensamento é que, na realidade , é algorítmico e excessivamente determinístico, a resposta é superdeterminada. Quando isso acontece, você pode perder as maneiras pelas quais os ECRs mal projetados podem produzir resultados piores do que um estudo observacional bem projetado.
Veja esta revisão de fácil leitura para uma discussão completa dos pontos acima da perspectiva de um epidemiologista (Rothman, 2014) .

Resposta à pergunta 2:

Tenha muito medo. Para simplesmente reiterar o que outros já disseram e citar (grosso modo) o elegante texto introdutório de Richard McElreath sobre pensamento crítico em modelagem estatística :

"... todos os modelos são falsos, mas alguns são úteis ..."

— Flaunk
fonte