Qual é o vínculo entre métodos como correspondência e controle estatístico de variáveis?


10

Muitas vezes, nos artigos de pesquisa que você lê, os pesquisadores controlam determinadas variáveis. Isso pode ser feito por métodos como correspondência, bloqueio etc.

Mas eu sempre pensei que controlar variáveis ​​era algo feito estatisticamente, medindo várias variáveis ​​que poderiam ter influência e realizando algumas análises estatísticas sobre elas, o que poderia ser feito em experimentos verdadeiros e quase. Então, por exemplo, você teria uma pesquisa ou outro teste no qual medisse a variável independente e algumas variáveis ​​possivelmente confusas e fizesse alguma análise.

  • É possível controlar variáveis ​​em quase experimentos?
  • Qual é o vínculo entre métodos como correspondência e controle estatístico de variáveis?

Respostas:


6

Como no AdamO, acho que a chave para responder a essa pergunta é a noção de inferência causal e como chegar "em direção" a um modelo causal usando configurações observacionais.

Em um mundo perfeito, teríamos algo chamado população contrafactual - a população do estudo, idêntica em todos os aspectos, exceto a única coisa em que estamos interessados. A diferença entre essas duas populações, com base nessa diferença, é um verdadeiro resultado causal.

Obviamente, não podemos ter isso.

Existem maneiras, no entanto, de tentar chegar perto disso:

  • Randomização: teoricamente (se a randomização for feita corretamente), você deverá fornecer duas populações idênticas, exceto o tratamento após a randomização.

  • Estratificação: você pode observar uma população dentro dos níveis de covariáveis, onde você está fazendo comparações "iguais com iguais". Isso funciona esplendidamente para um pequeno número de níveis, mas rapidamente se torna complicado.

  • Correspondência: Correspondência é uma tentativa de reunir uma população de estudo de modo que o Grupo A se assemelhe ao Grupo B e, portanto, seja passível de comparação.

  • Ajuste estatístico: a inclusão de covariáveis ​​em um modelo de regressão permite estimar um efeito dentro dos níveis das covariáveis ​​- novamente, comparando igual com igual, ou pelo menos tentando fazê-lo.

Todos são uma tentativa de se aproximar dessa população contrafactual. A melhor forma de obter isso depende do que você deseja divulgar e da aparência do seu estudo.


Explicação maravilhosa. Muito mais conciso e melhor aborda a questão original. Deixe-me acrescentar que, desses métodos, apenas o ajuste estatístico é impermeável ao problema de ter estratos vazios. Em um estudo de caso-controle, se desejarmos estratificar a população por idade, a correspondência, a estratificação e a aleatorização (em bloco) por idade exigem maior ou menor, para comparar um caso de 50 anos com um controle de 51 anos.
11132 AdamO

Na regressão logística, no entanto, você pode usar informações contínuas para obter informações emprestadas de forma implícita entre grupos, como a idade ajustada por spline linear ou básica para fazer essa comparação. Isso torna a modelagem de regressão uma das metodologias estatísticas mais poderosas e úteis disponíveis.
AdamO 11/11/12

@AdamO concordou - na minha resposta na pergunta acima, mencionei que ele pode ser usado para suavizar áreas sem informações, desde que essa falta de informações ocorra por acaso e impedimento. Mas sim - há uma razão pela qual a regressão é impressionante.
fomite

2

Eu acho que a modelagem causal é a chave para responder a essa pergunta. Um é confrontado desde o início para identificar o efeito de interesse ajustado / estratificado / controlado correto, antes mesmo de analisar os dados. Se eu fosse estimar a relação altura / capacidade pulmonar em adultos, eu me ajustaria ao status de fumar, uma vez que o cigarro atrapalha o crescimento e influencia a capacidade pulmonar. Os fatores de confusão são variáveis ​​causalmente relacionadas ao preditor de interesse e associadas ao resultado do interesse. Veja Causalidade de Judea Pearl, 2ª ed. Deve-se especificar e potencializar sua análise para as variáveis ​​de confusão corretas antes que o processo de coleta de dados comece a usar a lógica racional e o conhecimento prévio de estudos exploratórios anteriores.

R2para modelos lineares para essas variáveis ​​de ajuste. Outro processo comum em epidemiologia é onde variáveis ​​são adicionadas ao modelo apenas se elas alterarem a estimativa do efeito principal (como uma razão de chances ou taxa de risco) em pelo menos 10%. Embora isso seja "mais" correto do que a seleção de modelos baseada na AIC, ainda acho que existem grandes ressalvas nessa abordagem.

Minha recomendação é pré-especificar a análise desejada como parte de uma hipótese. O risco de fumar / câncer ajustado à idade é um parâmetro diferente e leva a inferência diferente em um estudo controlado do que o risco bruto de fumar / câncer. O uso do conhecimento do assunto é a melhor maneira de selecionar preditores para ajuste nas análises de regressão ou como variáveis ​​de estratificação, correspondência ou ponderação em vários outros tipos de análises "controladas" do design experimental e quase-experimental.


2

A história sobre a relação entre correspondência e regressão é resumida brevemente em um post do blog aqui . Em resumo

"Regresse em D [um indicador de tratamento] e um modelo completo de manequins (isto é, saturado) para X [covariáveis]. A estimativa resultante do efeito de D é igual à correspondência em X e à ponderação nas células covariadas pela variação de tratamento condicional em X "

Consulte também a seção 3.3 da Econometria Principalmente Inofensiva ou a seção 5.3 de Contrafactuais e inferência causal para uma discussão aprofundada, incluindo os prós e contras da ponderação X dada por D que a regressão fornece implicitamente.

O @EpiGrad dá um bom começo para sua primeira pergunta. Os livros acima mencionados tratam quase exclusivamente. Se você não tem formação em ciência da computação / matemática, pode achar que o Pearl é difícil (embora valha a pena no final!)

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.