Para responder sua pergunta literal: "É válido incluir uma medida de linha de base como variável de controle ao testar o efeito de uma variável independente nas pontuações de mudança?", A resposta é não . A resposta é não, porque, por construção, a pontuação da linha de base é correlacionada com o termo de erro quando a pontuação da mudança é usada como variável dependente; portanto, o efeito estimado da linha de base na pontuação da mudança é ininterpretável.
Usando
- Y1 como o peso inicial
- Y2 como o peso final
- Δ Y = Y 2 - Y 1ΔY como a alteração de peso (por exemplo, )ΔY=Y2−Y1
- T como um tratamento designado aleatoriamente , e
- X como outros fatores exógenos que afetam o peso (por exemplo, outras variáveis de controle que estão relacionadas ao resultado, mas não devem ser correlacionadas com o tratamento devido à atribuição aleatória)
Uma então tem um modelo de regressão em T e X ;ΔYTX
ΔY=β1T+β2X+e
Que por definição é equivalente a;
Y2−Y1=β1T+β2X+e
Agora, se você incluir a linha de base como covariável, deve-se ver um problema, pois você tem o termo em ambos os lados da equação. Isso mostra que β 3 Y 1 é incompreensível, porque está inerentemente correlacionado com o termo do erro.Y1β3Y1
Y2- Y1Y2= β1T+ β2X+ β3Y1+ e= β1T+ β2X+ β3Y1+ ( e + Y1)
Agora, a parte de confusão nos vários respostas parece resultar do facto de diferentes modelos irá produzir resultados idênticos para o efeito do tratamento , na minha formulação acima. Portanto, se alguém comparasse o efeito do tratamento para o modelo usando escores de mudança como variável dependente do modelo usando os "níveis" (com cada modelo incluindo a linha de base Y 1 como covariável), a interpretação do efeito do tratamento seria o mesmo. Nos dois modelos que seguem β 1 T serão os mesmos, e as inferências baseadas neles (Bruce Weaver tem algum código SPSS publicado demonstrando a equivalência também).β1TY1β1T
Ch a n ge S c o r e H o de lLevels Model:Y2−Y1=β1T+β2X+β3Y1+e:Y2=β1T+β2X+β3Y1+e
Então, alguns argumentam (como Felix fez neste tópico, e como Bruce Weaver fez em algumas discussões no grupo do Google SPSS no Google)) que, como os modelos resultam no mesmo efeito estimado de tratamento, não importa qual deles você escolher. Eu discordo, porque a covariável da linha de base no modelo de pontuação de alteração não pode ser interpretada, você nunca deve incluir a linha de base como covariável (independentemente de o efeito estimado do tratamento ser o mesmo ou não). Então isso levanta outra questão: qual é o sentido de usar as pontuações de mudança como variáveis dependentes? Como Felix já observou também, o modelo que usa a pontuação de mudança como variável dependente, excluindo a linha de base como covariável, é diferente do modelo que usa os níveis. Para esclarecer, os modelos subseqüentes fornecerão efeitos de tratamento diferentes (especialmente no caso em que o tratamento esteja correlacionado com a linha de base);
Ch a n ge S c o r e H o de l W i t h o u t B um s e l i n e L e v e l s M o de l: Y2- Y1= β1T+ β2X+ e: Y2= β1T+ β2X+ β3Y1+ e
Isso foi observado na literatura anterior como "Paradoxo do Senhor". Então, qual modelo está certo? Bem, no caso de experimentos randomizados, eu diria que o modelo de Níveis é preferível (embora se você tenha feito um bom trabalho de randomização, o efeito médio do tratamento deve ser muito próximo entre os modelos). Outros observaram razões pelas quais o modelo de níveis é preferível, a resposta de Charlie enfatiza que você pode estimar os efeitos de interação com a linha de base no modelo de níveis (mas não no modelo de pontuação de mudança). Whuber nesta resposta a uma pergunta muito semelhante demonstra como as pontuações de mudança induzem correlações entre diferentes tratamentos.
Nas situações em que o tratamento não é designado aleatoriamente, o modelo que utiliza escores de mudança como variável dependente deve receber mais consideração. O principal benefício do modelo de pontuação de mudança é que a qualquer momento são controlados preditores invariantes do resultado. Assim, na formulação acima, é constante ao longo do tempo (por exemplo, uma predisposição genética com um certo peso) e X está correlacionado com a escolha de um indivíduo por se exercitar (e X não é observado). Nesse caso, o modelo de pontuação da mudança é preferível. Também nos casos em que a seleção para o tratamento está correlacionada com o valor da linha de base, o modelo do escore de mudança pode ser preferível. Paul Allison em seu artigo,XXXMudar as pontuações como variáveis dependentes na análise de regressão , fornece os mesmos exemplos (e influenciou amplamente minha perspectiva sobre o tópico, por isso sugiro lê-lo).
Isso não quer dizer que as pontuações das alterações sejam sempre preferíveis em configurações não aleatórias. Caso você espere que a linha de base tenha um efeito causal real no peso posterior, você deve usar o modelo de níveis. No caso em que você espera que a linha de base tenha um efeito causal e a seleção no tratamento esteja correlacionada com a linha de base, o efeito do tratamento é confundido com o efeito da linha de base.
Ignorei a observação de Charlie de que o logaritmo do peso poderia ser usado como variável dependente. Embora eu não duvide de que isso possa ser uma possibilidade, é um tanto não sucessor da pergunta inicial. Outra questão foi discutida quando é apropriado usar os logaritmos da variável (e os que ainda se aplicam neste caso). Provavelmente, existe literatura anterior sobre o assunto que ajudaria a orientá-lo sobre se o uso do peso registrado também é apropriado.
Citação
Allison, Paul D. 1990. Altere os escores como variáveis dependentes na análise de regressão . Metodologia Sociológica 20: 93-114. Versão em PDF público .