Por que o viés é afetado quando um ensaio clínico é encerrado em um estágio inicial?


24

Uma análise interina é uma análise dos dados em um ou mais momentos antes do fechamento oficial do estudo, com a intenção de, por exemplo, possivelmente encerrar o estudo mais cedo.

De acordo com Piantadosi, S. ( Ensaios clínicos - uma perspectiva metodológica ): " A estimativa de um efeito do tratamento será enviesada quando um ensaio for encerrado em um estágio inicial. Quanto mais cedo a decisão, maior o viés " .

Você pode me explicar essa afirmação? Eu posso entender facilmente que a precisão será afetada, mas a alegação sobre o viés não é óbvia para mim ...


Eu acho que esta é uma pergunta perfeita de "carne para fora" as diferenças entre metodologia Bayesiana e freqüentista
probabilityislogic

Respostas:


13

Antes de tudo, é necessário observar o contexto: isso só se aplica quando o estudo foi interrompido precocemente devido ao monitoramento intermediário que mostra eficácia / futilidade, não por algum motivo externo aleatório. Nesse caso, a estimativa do tamanho do efeito será enviesada em um sentido completamente estatístico. Se você parou para obter eficácia, o efeito estimado será muito alto (supondo que seja positivo); se você parou para obter futilidade, será muito baixo.

Piantodosi também fornece uma explicação intuitiva (Seção 10.5.4 da minha edição). Suponha que a verdadeira diferença de duas maneiras seja 1 unidade. Quando você executa muitas tentativas e as observa no seu tempo de análise intermediária, algumas delas terão observado tamanhos de efeito muito acima de 1, algumas bem abaixo de uma e mais ou menos uma - a distribuição será ampla, mas simétrica. O tamanho estimado do efeito neste momento não seria muito preciso, mas seria imparcial. No entanto, você só para e relata um tamanho de efeito se a diferença for significativa (ajustada para vários testes), ou seja, a estimativa está no lado alto. Em todos os outros casos, você continua e não informa uma estimativa. Isso significa que, dependendo de ter parado cedo, a distribuição do tamanho do efeito não é simétrica e seu valor esperado está acima do valor real da estimativa.

O fato de esse efeito ser mais severo no início vem do obstáculo maior para interromper o teste, portanto uma parte maior da distribuição é descartada durante o condicionamento.


11
No começo, eu também pensei nisso, mas quando me sentei para provar isso, não consegui: só podia mostrar que a estimativa resultante é realmente imparcial. (Nova intuição: o viés positivo de uma parada condicional equilibra um viés negativo de levar o experimento até a conclusão.) Então: você pode apresentar uma demonstração mais rigorosa?
whuber

@whuber Vou tentar escrevê-la, mas o ponto é que a declaração de Piantodosi só é sobre o que acontece quando você fazer parar mais cedo. Não há conclusão para equilibrar isso.
Aniko

2
@whuber Sim, é isso que a declaração original afirma também. O seu argumento de que haverá um viés oposto à conclusão do estudo também é válido. A mensagem toda deve ser que, assim que você começar a monitorar temporariamente, coisas engraçadas começam a acontecer com sua capacidade de estimar o tamanho do efeito.
Aniko

3
@ Aniko Deve ser possível ajustar o viés quando ocorrer uma rescisão antecipada. Parece, portanto, que estamos discutindo o uso ingênuo de um estimador padrão, destinado a amostras aleatórias de tamanho fixo, em experimentos condicionalmente terminados, em que esses estimadores não têm as propriedades desejadas. (+1, por sinal.)
whuber

2
@whuber Claro, você pode ajustar esse viés, mas primeiro você precisa reconhecer que ele existe. E então você deve vender ao investigador que, embora claramente 5 em cada 10 pacientes tenham respondido, a taxa de resposta estimada é de 40% (números compostos) após o ajuste do viés devido à parada precoce.
Aniko

3

Aqui está uma ilustração de como o viés pode surgir nas conclusões e por que pode não ser a história completa. Suponha que você tenha um teste seqüencial de um medicamento que se espera tenha um efeito positivo (+1), mas que possa ter um efeito negativo (-1). Cinco cobaias são testadas uma após a outra. A probabilidade desconhecida de um resultado positivo em um único caso é de fato e um resultado negativo134 .14

Então, após cinco tentativas, as probabilidades dos diferentes resultados são

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

portanto, a probabilidade de um resultado positivo geral é 918/1024 = 0,896, e o resultado médio é +2,5. Dividindo pelas 5 tentativas, é uma média de um resultado de +0,5 por tentativa.

É a figura imparcial, como também é .+1×341×14

Suponha que, a fim de proteger porquinhos-da-índia, o estudo seja encerrado se, em qualquer estágio, o resultado cumulativo for negativo. Então as probabilidades se tornam

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

portanto, a probabilidade de um resultado positivo geral é 702/1024 = 0,6855 e o resultado médio é +1,953. Se observarmos o valor médio do resultado por tentativa no cálculo anterior, ou seja, usar ,+3+55 ,+1+35 ,-1+15 ,-115 e-113 , obteríamos +0,184.11

Esses são os sentidos nos quais há viés ao parar no início do segundo esquema, e o viés está na direção prevista. Mas não é a história completa.

Por que whuber e probabilityislogic pensam que parar cedo deve produzir resultados imparciais? Sabemos que o resultado esperado dos ensaios no segundo esquema é +1.953. O número esperado de tentativas acaba sendo 3,906. Assim, dividindo um pelo outro, obtemos +0,5, exatamente como antes e o que foi descrito como imparcial.


você está adotando a perspectiva do mundo "pré-dados". O que você diz é verdade, que a regra de parada é importante, mas apenas antes de considerar os dados . Isso ocorre porque a regra de parada fornece informações sobre os dados, mas não sobre as verdadeiras probabilidades. Portanto, uma vez que os dados estão inseridos, a regra de parada não importa mais. Observe que as probabilidades reais são desconhecidas no experimento real. Portanto, você também precisa considerar situações em que as probabilidades são, digamos eP(-)=3P(+)=14 , bem como qualquer outra combinação possível. P()=34
probabilityislogic

Então, tomo seu exemplo como afirmando que . Isto é certamente verdade! Minha resposta também condições sobre D embora. Isso ocorre porque, se você me disser a regra de parada, mas não se realmente parou, posso descobrir isso no conjunto de dados que realmente tenho. Na verdade, posso descobrir se alguma regra de parada realmente teria parado, depois que eu conhecer os dados. P(H|S,Eu)P(H|Eu)D
probabilityislogic

1

Bem, meu conhecimento sobre isso vem da oração harveiana em 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262 Essencialmente, para o melhor de minha lembrança, os resultados serão enviesados, pois 1) parando cedo geralmente significa que o tratamento foi mais ou menos eficaz do que se esperava e, se isso for positivo, você poderá aproveitar o acaso. Acredito que os valores de p sejam calculados com base no tamanho da amostra planejado (mas eu posso estar errado nisso) e também se você estiver constantemente verificando seus resultados para ver se algum efeito foi mostrado, será necessário corrigir várias comparações para garantir que você não esteja apenas encontrando um efeito casual. Por exemplo, se você verificar 20 vezes os valores de p abaixo de 0,05 e, em termos estatísticos, é quase certo que encontrará um resultado significativo.


PARTE 1 Antes de tudo, obrigado por sua resposta. De fato, os métodos freqüentistas corrigem vários testes. Portanto, o problema da estimativa tendenciosa do efeito do tratamento não pode vir daí. Em uma análise intermediária, o teste é baseado nas informações atuais, usando o tamanho atual da amostra, não no tamanho total planejado da amostra. Portanto, o problema também não vem daí.
Ocram

PARTE 2 Concordo que parar cedo pode significar que o tratamento é "mais eficaz do que se esperava". Nesse sentido, o efeito estimado do tratamento seria maior que o esperado. Mas, de acordo com mim, isso não o torna tendencioso ... Em vez disso, segundo mim, em certo sentido, "nossa esperança era tendenciosa".
Ocram

1

Eu discordaria dessa afirmação, a menos que por "viés" Piantadosi signifique a parte da precisão que é comumente chamada de viés. A inferência não será "tendenciosa" porque você optou por parar por si mesma: será "tendenciosa" porque você possui menos dados. O chamado "princípio da verossimilhança" afirma que a inferência deve depender apenas dos dados observados, e não dos dados que poderiam ter sido observados, mas não eram. O LP diz

P(H|D,S,Eu)=P(H|D,Eu)

HDSEuDEuS=g(D,Eu)UMAUMA=UMAS=g(D,Eu)DEuD,S,Eu=D,g(D,Eu),Eu=D,EuDEu isso importa.


@probabilityislogic: Obrigado! Se eu entendi bem, "viés" não deve ser tomado em sentido estatístico. Eu acho que isso faz sentido porque Piantadosi fala sobre o "viés" de uma estimativa e não de um estimador ...
Ocram

E(μ-μ^)2=vumar(μ^)+BEuumas(μ^)μμ^é o "estimador". Se o segundo termo (o viés) depender do tamanho da amostra, você esperaria que parar mais cedo aumentasse o viés, porque diminuiu o tamanho da amostra, em relação a se o experimento continuasse. Mas pelo que você diz, parece que "preconceito" deve ser interpretado como "erro" da perspectiva de Piantadosi.
probabilityislogic

11
Esse argumento não diz nada sobre o viés, apenas o aspecto do teste de hipóteses do problema, que ninguém questiona.
Aniko

@Prob Eu tenho que concordar com @Aniko: é óbvio que, quando o nulo é verdadeiro, existe uma probabilidade positiva de rescisão antecipada; nesse caso, a estimativa do efeito será diferente de zero. Assim, a expectativa do efeito estimado, condicional à rescisão antecipada, é positiva, enquanto a expectativa incondicional é zero. (Observe que o OP está tratando de estimativas , não de testes de hipóteses.)
whuber

Hμ(uma,uma+duma)SDEuSSSDEuμ
probabilityislogic

0

não vai ser inclinado (no "sentido estatístico") se a interrupção de estudos não é aleatória.

Em um conjunto de experimentos concluídos, os resultados "iniciais" de (a) alguns experimentos que acabam encontrando "nenhum efeito" mostrarão algum efeito (como resultado do acaso) eb) alguns experimentos que acabam encontrando um efeito mostrará "sem efeito" (provavelmente como resultado da falta de energia). Em um mundo em que você encerra os testes, se você parar (a) com mais frequência do que (b), você terminará a execução de estudos com viés a favor de encontrar um efeito. (A mesma lógica se aplica aos tamanhos dos efeitos ; encerrar os estudos que mostram efeito "maior que o esperado" mais cedo do que os que mostram "como esperado ou menor" aumentará a contagem de descobertas de "grande efeito").

Se, de fato, os ensaios médicos são encerrados quando os resultados iniciais mostram um efeito positivo - a fim de disponibilizar o tratamento para indivíduos que tomam placebo ou outros - mas não quando os resultados iniciais são inconclusivos, haverá mais erros do tipo 1 nesses testes do que haveria se todas as experiências fossem concluídas. Mas isso não significa que a prática esteja errada; moralmente, o custo do erro do tipo 1 pode ser menor do que negar o tratamento tão rapidamente quanto seria o caso de tratamentos que realmente mostrariam funcionar no final de todo o teste.


Por favor, veja meu comentário na resposta de Aniko, porque eu faria a mesma pergunta: você pode fornecer uma demonstração mais rigorosa?
whuber

Eu adoro Aniko - ele faz um trabalho melhor do que eu. Mas se você concorda que "efeito gaveta da mesa" resulta em viés, a lógica aqui é idêntica. Existe um viés a favor dos dados que apoiam as hipóteses - no primeiro caso b / c, os dados que não dão suporte não são relatados; no último b / c, uma fração dos dados não suportados não está necessariamente sendo coletada: Finalizando o teste no início, quando os resultados parecem bons, exclui parte da distribuição de "maus resultados" preenchida por ensaios que produzirão seus resultados ruins tardiamente . Talvez esse viés possa ser ajustado - mas há um viés na necessidade de ajuste.
dmk38

@dmk Só estou tentando incentivar vocês a ter um debate com o @Probability, com quem você parece discordar profundamente ;-).
whuber

11
P(D|H,S,Eu)

11
@ probability Essa é uma maneira de olhar para isso. Outra é desviar-se da hipótese e abordar a questão que está sendo feita; ou seja, qual é o tamanho do efeito do tratamento ? Desse ponto de vista, a rescisão pode ocorrer quando a estimativa é conhecida com precisão suficiente para apoiar a tomada de decisão. Por exemplo, podemos querer ter alta confiança de que o ganho em saúde ao prescrever o tratamento provavelmente excederá os custos (e efeitos colaterais) do tratamento.
whuber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.