O que há de errado com (algumas) pseudo-randomização

23

Me deparei com um estudo em que pacientes, com mais de 50 anos, eram pseudo-randomizados por ano de nascimento. Se o ano de nascimento fosse um número par, cuidados usuais, se um número ímpar, intervenção.

É mais fácil de implementar, mais difícil de subverter (é fácil verificar qual tratamento um paciente deveria receber), é fácil lembrar (a tarefa durou vários anos). Mas ainda assim, não gosto, sinto que a randomização adequada teria sido melhor. Mas não sei explicar o porquê.

Estou errado ao sentir isso ou há uma boa razão para preferir a aleatorização "real"?

experiment-design clinical-trials random-allocation

— Jeremy Miles
fonte

1

Bem vindo ao site! Fico feliz em ver sua postagem aqui.

— Andy W

Pelas respostas acima, me sinto melhor em "randomizar" até o DIA do nascimento! Dia estranho para o tratamento, mesmo dia para o controle ... Adalberto

— AADF

6

@ Adalberto Isso esquece o ponto principal, que é o fato de que qualquer procedimento definitivo e não randomizado de atribuir assuntos a grupos não pode ter certeza de ter as propriedades desejáveis de um procedimento aleatório. Suponha que você gaste anos em um estudo desse tipo apenas depois para que um revisor indique um fator de confusão inesperado, mas forte, entre tratamento e paridade do dia do nascimento? Como não podemos prever toda essa confusão, contornamos o problema por meio de atribuição aleatória.

— whuber

28

Você está certo em ser cético. Em geral, deve-se usar a randomização 'real', porque normalmente não se tem todo o conhecimento sobre fatores relevantes (não observáveis). Se um desses não observáveis estiver correlacionado com a idade ser ímpar ou par, também será correlacionado com se eles receberam ou não tratamento. Se for esse o caso, não podemos identificar o efeito do tratamento: os efeitos que observamos podem ser devidos ao tratamento ou ao (s) fator (es) não observado (s).

Isso não é um problema com a randomização real, onde não esperamos nenhuma dependência entre tratamento e não observáveis (embora, é claro, para amostras pequenas, possa estar lá).

Para construir uma história de por que esse procedimento de randomização pode ser um problema, suponha que o estudo incluísse apenas indivíduos que tinham entre 17 e 18 anos de idade quando, digamos, a guerra do Vietnã começou. Com 17 anos, não havia chance de ser recrutado (corrija-me se eu estiver errado nisso), enquanto havia essa chance aos 18 anos. Supondo que a chance não fosse desprezível e que a experiência de guerra mudasse as pessoas, isso implica que, anos depois, esses dois grupos são diferentes, apesar de terem apenas um ano de diferença. Então, talvez o tratamento (droga) pareça não funcionar, mas porque apenas o grupo com veteranos do Vietnã o recebeu, isso pode ser devido ao fato de não funcionar com pessoas com TEPT (ou outros fatores relacionados a sendo um veterano). Em outras palavras, você precisa que os dois grupos (tratamento e controle) sejam idênticos, exceto o tratamento, para identificar o efeito do tratamento.

Portanto, a menos que você possa descartar que não há diferenças não observadas entre os grupos (mas como você faz isso se não for observado?), A randomização real é preferível.

— Sem nome
fonte

Obrigado. Belo exemplo. (Esqueci de chamá-lo de pseudo-randomização, editei isso na pergunta).

— Jeremy Miles

2

(+1) Enquanto eu lia a pergunta, o Vietnã foi o primeiro exemplo que imediatamente veio à mente. Foi divertido ver que você adotou a mesma atitude. Suponho que seja a escolha mais óbvia, dadas as idades declaradas dos sujeitos, embora as idades do início aos meados dos anos 60 estejam um pouco mais próximas.

— cardeal

Desculpas pelo ping fora do tópico: existe uma sugestão no Meta de tornar [experimento randomizado] um sinônimo da tag [alocação aleatória] ( stats.meta.stackexchange.com/a/4651 ). Você tem reputação suficiente nesta tag para votar nesta sugestão aqui: stats.stackexchange.com/tags/random-allocation/synonym - agora é necessário 4 votos para ser aprovado . Se você não concorda com a proposta, considere comentar o Meta para explicar o porquê. Excluirei este comentário em breve. Felicidades.

— Ameba diz Reinstate Monica

18

É um bom exercício para defender pontos de vista contrários de tempos em tempos, então, deixe-me começar oferecendo algumas razões a favor dessa forma de pseudo-randomização. Eles são, principalmente, que é um pouco diferente de qualquer outra forma de amostragem sistemática , como obter amostras de meios ambientais em pontos de uma grade no campo ou amostrar todas as outras árvores em um pomar e, portanto, essa amostragem pode desfrutar de vantagens comparáveis. .

A analogia aqui é perfeita: a idade foi "dividida" por ano, começando na origem de zero e a atribuição aos grupos alternados ao longo dessa grade (unidimensional). Algumas vantagens dessa abordagem são garantir ampla e uniforme dispersão da amostra pelo campo ou pomar (ou idades, neste caso), o que ajuda a nivelar as influências relacionadas à localização (ou ao tempo). Isso pode ser especialmente útil quando a teoria sugere que a localização é o fator predominante na variação da resposta. Além disso, exceto por amostras realmente pequenas, analisando os dados como seeles eram uma amostra aleatória simples introduz um erro relativamente pequeno. Além disso, é possível alguma aleatorização: no campo, podemos escolher aleatoriamente a origem e a orientação da grade. No presente caso, podemos pelo menos randomizar se os anos pares são controles ou sujeitos de tratamento.

Outra vantagem da amostragem em grade é detectar variação localizada. No campo, isso seria "bolsões" de respostas incomuns. Estatisticamente, podemos pensar nelas como manifestações de correlação espacial. Na situação atual, se houver alguma chance de uma faixa etária relativamente estreita experimentar respostas incomuns, o design com grade é uma excelente opção, porque um design puramente aleatório pode por acaso conter grandes lacunas nas idades dentro de um dos grupos. (Mas um design melhor pode ser estratificar: use a paridade etária para formar dois estratos analíticos e, então, independentemente dentro de cada estrato, randomize os pacientes em grupos de controle e tratamento.)

$9$ estar associado a fatores importantes para o experimento. Isso torna a preocupação na pergunta menos do que hipotética: é real. Neste ponto, as respostas anteriores deste tópico apresentam de forma competente os pensamentos adicionais que gostaria de fazer, então pararei e o convidarei a relê-los.

— whuber
fonte

(+1) Particularmente para o contra-argumento criado.

— cardeal

13

Concordo que o exemplo que você dá é bastante inócuo, mas ...

Se os agentes envolvidos (a pessoa que está realizando a intervenção ou as pessoas que estão recebendo a intervenção) ficarem cientes do esquema de atribuição, eles poderão tirar proveito dele. Essa auto seleção deve ser bastante óbvia porque é problemática na maioria dos projetos experimentais.

Um exemplo que conheço na criminologia é assim; O experimento teve como objetivo testar o efeito dissuasor de uma noite na prisão após uma disputa doméstica versus apenas pedir ao autor que deixasse a noite. Os oficiais receberam um livreto de folhas e a cor da folha atual na parte superior destinava-se a identificar qual tratamento o criminoso. no incidente em particular deveria receber.

O que acabou acontecendo foi que os policiais desobedeceram intencionalmente o desenho do estudo e escolheram uma folha com base nas preferências pessoais para o que deveria ser feito com o criminoso. Não é de se estranhar suspeitar de falsificações semelhantes de anos, pelo menos possível no seu exemplo.

— Andy W
fonte

Bom exemplo, obrigado, mas parte do raciocínio era que a falsificação era muito mais difícil - eles não podiam argumentar que a folha era (digamos) amarela, porque eu posso verificar a data de nascimento e ver se foram atribuídas corretamente.

— Jeremy Miles

3

Concordo @ JeremyMiles, é apenas mais uma razão para estudos randomizados duplo-cegos. É apenas um argumento pretendido contra a pseudo-randomização - que é mais fácil contornar o tratamento pretendido do que a randomização real. (Meu exemplo, na verdade, não é um exemplo de pseudo-randomização, mas ilustra o ponto de forma sucinta.)

— Andy W

Bem, isso depende de como a randomização (verdadeira) foi feita - as pessoas envolvidas no estudo fizeram isso em parte para evitar problemas com a subversão. Se você usar a randomização real, precisará de um bom registro para garantir que a pessoa que determina a randomização se comunique com a pessoa que administra o tratamento, e a pessoa que administra faz a coisa certa. No seu exemplo, se eles usassem o número da casa (digamos), os policiais poderiam ter tido mais dificuldade em subverter, mesmo que não fosse aleatório.

— Jeremy Miles

1

Desculpas pelo ping fora do tópico: existe uma sugestão no Meta de tornar [experimento randomizado] um sinônimo da tag [alocação aleatória] ( stats.meta.stackexchange.com/a/4651 ). Você tem reputação suficiente nesta tag para votar nesta sugestão aqui: stats.stackexchange.com/tags/random-allocation/synonym - agora é necessário 4 votos para ser aprovado . Se você não concorda com a proposta, considere comentar o Meta para explicar o porquê. Excluirei este comentário em breve. Felicidades.

— Ameba diz Reinstate Monica

0

A randomização completa com base na distribuição aleatória não é previsível; no seu caso, sabe-se que um caso seria atribuído à Intervenção ou Controle antes da confirmação da elegibilidade.

— Ayat
fonte