Tarefa aleatória: por que se preocupar?


9

A atribuição aleatória é valiosa porque garante a independência do tratamento dos possíveis resultados. É assim que leva a estimativas imparciais do efeito médio do tratamento. Mas outros esquemas de atribuição também podem garantir sistematicamente a independência do tratamento dos possíveis resultados. Então, por que precisamos de atribuição aleatória? Em outras palavras, qual é a vantagem da atribuição aleatória sobre os esquemas de atribuição não aleatórios que também levam a inferência imparcial?

Seja um vetor de atribuições de tratamento em que cada elemento é 0 (unidade não atribuída ao tratamento) ou 1 (unidade atribuída ao tratamento). Em um artigo da JASA, Angrist, Imbens e Rubin (1996, 446-47) dizem que a atribuição de tratamento é aleatória se para todos os \ mathbf {c} e \ mathbf {c'} de modo que \ iota ^ T \ mathbf {c} = \ iota ^ T \ mathbf {c '} , em que \ iota é um vetor de coluna com todos os elementos iguais a 1.ZZiPr(Z=c)=Pr(Z=c)ccιTc=ιTcι

Em palavras, a reivindicação é que a atribuição Zi é aleatória se qualquer vetor de atribuições que inclui m atribuições ao tratamento for tão provável quanto qualquer outro vetor que inclua m atribuições ao tratamento.

Mas, para garantir a independência dos resultados potenciais da atribuição do tratamento, basta garantir que cada unidade do estudo tenha igual probabilidade de atribuição ao tratamento. E isso pode ocorrer facilmente, mesmo que a maioria dos vetores de atribuição de tratamento tenha probabilidade zero de ser selecionada. Ou seja, pode ocorrer mesmo sob atribuição não aleatória.

Aqui está um exemplo. Queremos realizar um experimento com quatro unidades nas quais exatamente duas são tratadas. Existem seis vetores de atribuição possíveis:

  1. 1100
  2. 1010
  3. 1001
  4. 0110
  5. 0101
  6. 0011

onde o primeiro dígito em cada número indica se a primeira unidade foi tratada, o segundo dígito indica se a segunda unidade foi tratada e assim por diante.

Suponha que realizemos um experimento no qual excluamos a possibilidade dos vetores de atribuição 3 e 4, mas no qual cada um dos outros vetores tem chance igual (25%) de ser escolhido. Esse esquema não é uma atribuição aleatória no sentido do AIR. Mas, na expectativa, leva a uma estimativa imparcial do efeito médio do tratamento. E isso não é acidente. Qualquer esquema de atribuição que dê aos sujeitos probabilidade igual de atribuição ao tratamento permitirá uma estimativa imparcial do ATE.

Então: por que precisamos de atribuição aleatória no sentido do AIR? Meu argumento está enraizado na inferência de randomização; se pensarmos em termos de inferência baseada em modelo, a definição do AIR parece mais defensável?


3
Eu não li Angrist et al., Então talvez eu esteja perdendo alguma coisa, mas eu tenho uma queixa com seu fraseado. Não usamos atribuição aleatória para garantir que o tratamento seja independente dos possíveis resultados. Se o tratamento é independente dos resultados de um experimento verdadeiro, depende se existe uma conexão causal direta entre o tratamento e o resultado. Em vez disso, a atribuição aleatória garante que o tratamento seja independente de variáveis ​​ocultas (ou possíveis fatores de confusão). É a possibilidade de que o resultado tenha sido causado por algo diferente do tratamento que esperamos excluir.
gung - Restabelece Monica

11
@ Gung, acho que você está confundindo "resultados em potencial" e "resultados". É verdade que a atribuição aleatória não garante a independência do tratamento dos resultados (ou seja, dos resultados observados). Mas os resultados em potencial não são os mesmos que os resultados observados, e a atribuição aleatória garante a independência do tratamento em relação aos resultados em potencial. Não vou editar a postagem original para expandir esse ponto; isso me levaria muito longe do tópico principal. Mas en.wikipedia.org/wiki/Rubin_causal_model pode ser útil nesse ponto.
user697473

3
"Para garantir a independência dos possíveis resultados da atribuição do tratamento, basta garantir que cada unidade do estudo tenha a mesma probabilidade de atribuir ao tratamento". Isto está incorreto. Suponha que você tenha inscrito homens e mulheres em um estudo. Jogue uma moeda justa: se houver cara, atribua todas as fêmeas ao grupo de tratamento (e todos os homens ao grupo de controle); se caudas, todos os machos estarão no grupo de tratamento e todas as fêmeas no grupo de controle. Cada sujeito (obviamente) tem 50% de chance de ser designado ao grupo de tratamento - mas o tratamento é completamente confundido com o sexo. xx
whuber

11
@whuber, seu comentário não parece correto. Para entender por que, suponha = 1. Os resultados potenciais do homem são Y (1) = 1 e Y (0) = 0. (Ou seja, = 1 se o homem for tratado, 0 se não). Para a mulher, os resultados potenciais são Y (1) = -1 e Y (0) = 2. (Os resultados potenciais particulares não importam muito, mas números inteiros pequenos mantêm as coisas simples.) Então E [Y (1) | Z] = E [Y (1)] = 0. Igualdades similares são válidas para E [Y (0)]. De maneira mais geral, seu mecanismo de atribuição não se confunde com o sexo e produzirá uma estimativa imparcial do ATE. Se estou entendendo algo errado, entre em contato. xYm
user697473

3
Certamente, a estimativa é "imparcial" no mesmo sentido em que um relógio parado fornece uma estimativa imparcial do tempo! Na verdade, é pior que isso: esse método de seleção aleatória produz resultados que não podem ser atribuídos ao tratamento, porque também podem ser atribuídos ao gênero. Isso é o que significa confundir. Concentrando-se na obtenção de resultados imparciais ao destruir todas as informações úteis no experimento é o arremesso proverbial fora do bebê ...
whuber

Respostas:


8

Isso segue o comentário de Gung. O efeito médio geral do tratamento não é o ponto.

Suponha que você tenha novos casos de diabetes em que o sujeito tenha entre e e novos pacientes com diabetes acima de . Você deseja atribuir metade ao tratamento. Por que não jogar uma moeda e, na cabeça, tratar todos os pacientes jovens e, na cauda, ​​tratar todos os pacientes mais velhos? Cada um teria100051510003050%chance de ser selecionado para o tratamento, para que isso não viesse o resultado médio do tratamento, mas jogaria fora muita informação. Não seria uma surpresa se o diabetes juvenil ou os pacientes mais jovens respondessem muito melhor ou pior do que os pacientes mais velhos com diabetes tipo II ou gestacional. O efeito do tratamento observado pode ser imparcial, mas, por exemplo, teria um desvio padrão muito maior do que o que ocorreria por atribuição aleatória e, apesar da amostra grande, você não seria capaz de dizer muito. Se você usar uma atribuição aleatória, com alta probabilidade, cerca de casos em cada faixa etária receberão o tratamento, para poder comparar o tratamento sem tratamento dentro de cada faixa etária. 500

Você pode fazer melhor do que usar atribuição aleatória. Se você notar um fator que acha que pode afetar a resposta ao tratamento, convém garantir que os indivíduos com esse atributo sejam divididos de maneira mais uniforme do que ocorreria por atribuição aleatória. A atribuição aleatória permite executar razoavelmente bem todos os fatores simultaneamente, para que você possa analisar muitos padrões possíveis posteriormente.


Obrigado Douglas. Esta resposta faz sentido para mim. Para o registro, eu não tinha em mente nada tão extremo quanto o seu exemplo ou o exemplo do @ whuber acima. Eu estava pensando, em vez de casos em que eliminamos da consideração apenas alguns vetores de tratamento. (Considere um caso em que um cliente diga "você pode tratar essa pessoa ou aquela, mas não as duas.") Mas acho que seus pontos gerais são válidos mesmo para os casos mais brandos que tenho em mente.
user697473

Eu acho que se você eliminar apenas alguns vetores, não alterará muito a quantidade de informações que pode extrair. Quantificar isso com precisão pode ser confuso - existem limites ingênuos que provavelmente são muito pessimistas.
Douglas Zare

@DouglasZare Tenho uma pergunta sobre o seu exemplo extremo. Acredito que o objetivo é descobrir se o tratamento é eficaz para a população que tem pacientes jovens e idosos. Em seguida, seu método irá gerar duas amostras que não podem ser consideradas como amostra representativa da distribuição potencial de resultados onde todas as pessoas fazem tratamento e da distribuição potencial de resultados onde todas as pessoas assumem o controle. Assim, pois, o seu efeito do tratamento observado é tendenciosaFtFc
KevinKim

1

No seu exemplo, você pode deixar 2 e 5 de fora também e não se contradizer. No nível do item, ainda há uma chance igual de ser 1 ou 0 quando há apenas 1: 1 de chance de selecionar 1 ou 6. Mas agora o que você fez removendo 3 e 4 se torna mais óbvio.


Obrigado John. Sim você está correto. Parece que podemos eliminar quantos vetores de atribuição de tratamento quisermos, em qualquer combinação, desde que usemos os vetores restantes de uma maneira que dê a cada unidade a mesma probabilidade de atribuição de tratamento ao tratamento.
user697473

Eu não acho que você está entendendo o que estou dizendo. O que apresentei é o caso ad absurdum do seu argumento que argumenta contra.
John

Seu exemplo é extremo, mas não vejo nada de absurdo nisso. É uma demonstração válida do ponto: esquemas de atribuição não aleatórios (como usar apenas os vetores 1 e 6) podem levar diretamente a uma estimativa imparcial do efeito médio do tratamento. Daqui resulta que não precisamos de atribuição aleatória para obter estimativas imparciais do ATE. É claro que ainda pode haver razões pelas quais é ruim eliminar os vetores 2 a 5. (Veja o comentário de Douglas Zare acima .) Ainda não pensei nessas razões.
user697473

Você deve. É por isso que você não pode eliminá-los.
John

1

Aqui está outra das variáveis ​​ocultas ou confusas: tempo (ou desvio instrumental, efeitos do armazenamento de amostras, etc.).
Portanto, existem argumentos contra a randomização (como Douglas diz: você pode fazer melhor que a randomização). Por exemplo, você pode saber de antemão que deseja que seus casos sejam equilibrados ao longo do tempo. Assim como você pode saber de antemão que deseja equilibrar gênero e idade.

Em outras palavras, se você quiser escolher manualmente um dos seus 6 esquemas, eu diria que 1100 (ou 0011) é uma escolha decididamente ruim . Observe que as primeiras possibilidades que você jogou fora são as que são mais equilibradas no tempo ... E as duas piores são deixadas depois que John se propôs a jogar fora também 2 e 5 (contra as quais você não protestou).
Em outras palavras, sua intuição de que esquemas são "agradáveis" infelizmente leva a um projeto experimental ruim (IMHO isso é bastante comum; talvez as coisas ordenadas pareçam mais agradáveis ​​- e com certeza é mais fácil acompanhar as seqüências lógicas durante o experimento).

Você pode fazer melhor com esquemas não aleatórios, mas também pode fazer muito pior. IMHO, você poderá fornecer argumentos físicos / químicos / biológicos / médicos / ... para o esquema não aleatório específico que você usa, se você optar por um esquema não aleatório.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.