A diferença entre controle e tratamento deve ser modelada explícita ou implicitamente?

Dada a seguinte configuração experimental:

Várias amostras são coletadas de um sujeito e cada amostra é tratada de várias maneiras (incluindo um tratamento de controle). O que é principalmente interessante é a diferença entre o controle e cada tratamento.

Eu posso pensar em dois modelos simples para esses dados. Com a amostra , tratamento , tratamento 0 sendo o controle, seja os dados, seja a linha de base da amostra , seja a diferença para o tratamento . O primeiro modelo analisa o controle e a diferença: $i$ $j$ $Y_{ij}$ $\gamma_i$ $i$ $\delta_j$ $j$

Y_{i j} = γ_{i} + δ_{j} + ϵ_{i j}

$Y_{ij}=\gamma_i+\delta_j+\epsilon_{ij}$

δ_{0} = 0

$\delta_0=0$

Enquanto o segundo modelo apenas olha para a diferença. Se pré- previamente então $d_{ij}$

d_{i j} = Y_{i j} - Y_{i 0}

$d_{ij}=Y_{ij}-Y_{i0}$

d_{i j} = δ_{j} + ε_{i j}

$d_{ij}=\delta_j+\varepsilon_{ij}$

Minha pergunta é quais são as diferenças fundamentais entre essas duas configurações? Em particular, se os níveis são insignificantes em si mesmos e apenas a diferença importa, o primeiro modelo está fazendo muito e talvez esteja com pouca potência?

— Rónán Daly
fonte

Posso dar uma resposta mais completa mais tarde, mas eu sugeriria que este artigo de Paul Allison seria interessante ( Allison, 1990 ).

— Andy W

Editado para refletir o fato de que os erros nos diferentes modelos não são realmente os mesmos e, portanto, não devem usar os mesmos símbolos.

— Rónán Daly 02/09/11

É provável que o esteja correlacionado no segundo modelo, mas não no primeiro. $\epsilon_{ij}$

No primeiro, esses termos representam erros de medição e desvios do modelo aditivo. Com um cuidado razoável - como aleatoriamente a sequência de medições - esses erros podem ser cometidos independentemente quando o modelo é preciso. De onde

d_{i j} = Y_{i j} - Y_{i 0} = γ_{i} + δ_{j} + ϵ_{i j} - (γ_{i} + δ_{0} + ϵ_{i 0}) = δ_{j} + (ϵ_{i j} - ϵ_{i 0}) .

$d_{ij} = Y_{ij} - Y_{i0} = \gamma_i + \delta_j + \epsilon_{ij} - (\gamma_i + \delta_0 + \epsilon_{i0}) = \delta_j + (\epsilon_{ij} - \epsilon_{i0}).$

(Observe que isso contradiz a última equação da pergunta, porque é errado assumir Fazer isso nos forçaria a admitir que são variáveis aleatórias em vez de parâmetros, pelo menos uma vez que reconhecemos o possibilidade de erro de medição para o controle, o que levaria às mesmas conclusões abaixo.) $\epsilon_{i0}=0$ $\gamma_i$

Para , isso implica $j, k \ne 0$ $j \ne k$

C o v (d_{i j}, d_{i k}) = C o v (ϵ_{i j} - ϵ_{i 0}, ϵ_{i k} - ϵ_{i 0}) = V a r (ϵ_{i 0}) \neq 0.

$Cov(d_{ij}, d_{ik}) = Cov(\epsilon_{ij} - \epsilon_{i0}, \epsilon_{ik} - \epsilon_{i0}) = Var(\epsilon_{i0}) \ne 0.$

A correlação pode ser substancial. Para erros de iid, um cálculo semelhante mostra que é igual a 0,5. A menos que você esteja usando procedimentos que lidam com essa correlação explícita e corretamente, favoreça o primeiro modelo em vez do segundo.

— whuber
fonte

Portanto, você assumiu que o primeiro modelo é o modelo verdadeiro e derivou uma propriedade indesejável do segundo modelo. Sabemos que todos os modelos estão errados, então esse resultado é realmente significativo?

— Macro

@ Macro Por favor, leia minha resposta com mais cuidado: ela é criada para mostrar quais premissas são necessárias para justificar o primeiro modelo e distingui-lo do segundo, mas não contém nenhuma premissa de que qualquer modelo seja "verdadeiro". Por exemplo, observe a ressalva "quando o modelo for preciso". Até a palavra "preciso" foi escolhida com algum pensamento para evitar a má impressão de que existe um modelo "verdadeiro" ou "correto".

— whuber

Estou um pouco confuso, o que é ?

d_{i k}

$d_{ik}$

— Andy W

@Andy e índice dois tratamentos diferentes. Eu deveria ter escrito "Para ..."; Vou consertar esse erro de digitação. Obrigado por pegá-lo.

j

$j$

k

$k$

j, k \neq 0

$j,k \ne 0$

— whuber

@whuber Existem referências que apóiam sua declaração, por exemplo, para convencer os revisores?

— Daniel