Por que o método de Stouffer funciona?

8

Parece uma pergunta bastante direta, mas quando realmente penso nisso, o método de Stouffer não faz sentido para mim. Isso é por que:

Suponha uma hipótese bicaudal. Primeiro você calcula partir de - . Então, vamos dar um exemplo bastante simples. Vamos pegar dois valores de de . Isso significa que e são ambos . De acordo com o método de Stouffer, e são combinados de modo que: $z_i$ $p$ $p$ $0.05$ $z_1$ $z_2$ $\approx1.96$ $z_1$ $z_2$

Z = \frac{\sum_{i = 1}^{k} Z_{i}}{\sqrt{k}} = \frac{1.96 + 1.96}{\sqrt{2}} = 2.77

$Z = \frac{\sum\limits_{i=1}^kZ_i}{\sqrt{k}} = \frac{1.96 + 1.96}{\sqrt{2}} = 2.77$

Esse escore é então convertido em um valor mais uma vez, resultando em um valor de , enquanto os valores de cada individualmente são de cerca de . $z$ $p$ $p$ $0.005$ $p$ $z_i$ $0.05$

Nesse sentido, parece que o teste de Stouffer altera artificialmente o valor resultante para um valor diferente dos valores de cada , o que para mim não faz sentido. $p$ $p$ $z_i$

Estou entendendo mal este teste ou alguém pode me ajudar a entender como / por que funciona?

— vai
fonte

3

(+1) Mas observe que o método de Stouffer neste formulário não é apropriado para alternativas bicaudais. O problema é que ele ignora a possibilidade de um estudo ter encontrado um efeito em uma direção e o outro, um efeito na direção oposta. É preciso verificar se isso não ocorreu. Para chegar à sua pergunta: em que sentido isso é "artificial"? Tenha em mente que o objetivo é combinar evidências para apoiar a tomada de decisões. Não faz sentido que dois resultados significativos devam constituir um apoio mais forte a uma decisão do que qualquer um sozinho?

— whuber

Quando escrevi que parece "artificial", quis dizer que, no caso de haver duas amostras (N = 2), sempre haverá uma inflação no escore Z, resultando em valores de p consistentemente mais baixos do que o esperado escore z ( ). Embora faça sentido que dois resultados significativos devam resultar em um suporte mais forte a uma decisão do que qualquer um sozinho, não faz sentido que dois valores de p sejam implementados no método de Stouffer e o resultado seja completamente diferente de qualquer um dos p- valor.

z_{i}

$z_i$

— vai

2

@ Will, não consigo entender a última frase do seu primeiro (longo) comentário aqui. Sim, faz sentido que dois resultados significativos produzam um suporte mais forte quando combinados. O que significa que o valor p combinado pode muito bem ser menor do que qualquer um dos dois. Então qual é o problema?

— Ameba

2

Eu estava pensando que uma maneira de desenvolver sua intuição seria reverter esse procedimento: faça um único estudo e divida -o em duas partes aleatórias, depois analise cada parte separadamente. Como um exemplo muito simples, considere uma pesquisa pós-eleitoral na qual 1000 pessoas foram entrevistadas e 535 disseram que votaram no titular e 465 no oponente. Uma divisão aleatória pode ir 265-235 na metade e 270-230 na outra metade. Quais são os valores p para o teste de igualdade de proporções nas duas metades e qual é o valor p global? (Em R, computação usando prop.test(535,1000)etc.)

— whuber

2

Você parece confundir a estimativa amostral da proporção com o valor p do teste !! O valor p geral é 0,03 enquanto os valores p das duas metades são 0,08 e 0,19.

— whuber

7

O maior tamanho da amostra geral leva a uma potência maior e, portanto, a um valor de p menor (pelo menos se a hipótese de trabalho for suportada pelos dados).

Este é geralmente o ponto principal de qualquer metanálise: múltiplas evidências fracas que sustentam uma hipótese são combinadas com fortes evidências para ela.

— Michael M
fonte

Como o termo estatístico "poder" neste contexto tem um significado nitidamente diferente do valor-p, estou preocupado que essa explicação possa causar alguma confusão entre eles.

— whuber

Então, isso significa que, no caso de o tamanho da amostra ser 2, a potência do método de Stouffer sempre será reduzida e o valor de p sempre será menor? Como obter uma resposta mais precisa quando o tamanho da amostra é dois?

— vai

O tamanho da "meta-amostra" é dois, ou seja, houve dois experimentos que renderam

. O tamanho da amostra combinada

é

, geralmente muito maior que 2. Como essa metanálise leva em consideração apenas os valores de p, as informações disponíveis são muito inferiores às dos dados brutos do

eventos.

p = 0.05

$p=0.05$

N

$N$

N = N_{1} + N_{2}

$N=N_1+N_2$

N_{1} + N_{2}

$N_1+N_2$

— quazgar

2

Para simplificar, pense em termos de teste de meios. Suponha que em H0 o efeito do tratamento seja zero, de modo que cada valor de z seja uma estimativa ponderada do efeito do tratamento θi. O método de Stouffer fornece uma média não ponderada desses efeitos do tratamento, fornecendo uma estimativa mais precisa (e, portanto, menor valor p) do que cada valor z separado. Esta estimativa não ponderada do efeito do tratamento é enviesada, mas é possível um método de Stouffer ponderado e, se os pesos forem proporcionais a 1 / erro padrão (θi), a estimativa do efeito do tratamento é imparcial. No entanto, isso só faz sentido se os valores z separados forem medidas da mesma quantidade. Uma vantagem dos métodos de Stouffer e Fisher é que eles também podem ser aplicados a metanálises onde diferentes variáveis de resposta foram escolhidas - para que possam '

— Paul Silcocks
fonte

0

$H_0$ $p$ $p<0.1$ $H_0$

$p$

— quazgar
fonte

-2

Eu acho que seria bom combinar resultados bicaudais porque isso significa que o resultado seria zero (se houver evidência de que o tratamento melhore [a cauda direita] a doença de um paciente, mas também a evidência de que piora [esquerda -tail], o resultado líquido não é evidência de uma hipótese específica, uma vez que eles se cancelam e são necessárias mais observações.

— gah
fonte

1

Eu não acho que isso resolva a questão. Além disso, o comentário do whuber indica que esse método específico não funciona para testes bicaudais.

— mkt - Restabelece Monica