Ao combinar valores-p, por que não apenas calcular a média?

Recentemente, aprendi sobre o método de Fisher para combinar valores-p. Isso se baseia no fato de que o valor p sob o nulo segue uma distribuição uniforme e que que eu acho genial. Mas minha pergunta é por que seguir esse caminho complicado? e por que não (com o que há de errado) apenas usando valores médios de p e usando o teorema do limite central? ou mediana? Estou tentando entender a genialidade de RA Fisher por trás desse grande esquema.

- 2 \sum_{i = 1}^{n} \log X_{i} \sim χ^{2} (2 n), given X \sim Unif (0, 1)

$-2\sum_{i=1}^n{\log X_i} \sim \chi^2(2n), \text{ given } X \sim \text{Unif}(0,1)$

— Alby
fonte

Tudo se resume a um axioma básico de probabilidade: os valores de p são probabilidades e as probabilidades dos resultados de experimentos independentes não acrescentam, elas se multiplicam. No que diz respeito à multiplicação, os logaritmos simplificam um produto para uma soma: é que vem. (O fato de ter uma distribuição qui-quadrado é então uma conseqüência matemática inelutável.) Longe de começar "complicado", esse talvez seja o procedimento mais simples e natural (legítimo) concebível.

\sum \log (X_{i})

$\sum\log(X_i)$

— whuber

Digamos que eu tenha 2 amostras independentes da mesma população (digamos que tenhamos um teste t de uma amostra). Imagine que a média da amostra e os desvios padrão são praticamente os mesmos. Portanto, o valor de p para a primeira amostra é 0,0666 e para a segunda amostra é 0,0668. Qual deve ser o valor p geral? Bem, deveria ser 0,0667? Na verdade, é bastante óbvio que deve ser menor. Nesse caso, a coisa "certa" a fazer é combinar as amostras, se as tivermos. Teríamos o mesmo valor médio e desvio padrão, mas o dobro do tamanho da amostra . O padrão. o erro da média é menor e o valor p deve ser menor.

— Glen_b

Existem outras maneiras de combinar valores-p, é claro, embora o produto seja a maneira mais natural de fazê-lo. Pode-se adicionar os valores-p, por exemplo; sob a junta nula, a soma deles deve ter uma distribuição triangular. Ou pode-se converter os valores-p em valores-z e adicioná-los (e se você estivesse combinando resultados de amostras de tamanho semelhante não muito pequenas de uma população normal, isso faria muito sentido). Mas o produto é a maneira óbvia de proceder; faz sentido lógico sempre.

— Glen_b

Observe que o método de Fisher é baseado no produto, que é o que estou descrevendo como natural - porque você multiplica probabilidades independentes para encontrar a probabilidade conjunta. Considerando que o GM não é realmente diferente do produto, há uma etapa adicional para descobrir qual é o valor p combinado correspondente, porque, depois de calcular o GM ( , digamos), pegando o produto, você precisará examinar obtém o valor p combinado. Ou seja, você converteria o GM novamente no produto antes de registrar os registros para encontrar o valor p combinado.

g

$g$

- 2 n \log g = - 2 \log (g^{n})

$-2n \log g=-2 \log (g^n)$

— Glen_b

Eu pediria que cada um lesse a peça de Duncan Murdoch "Os valores P são variáveis aleatórias" em "The American Statistician". I encontrar uma cópia on-line em: hypergeometric.files.wordpress.com/2013/09/...

— Dwin

Respostas:

Você pode usar perfeitamente o valor médio . $p$

O conjunto de métodos de Fisher define um limite em , de modo que, se a hipótese nula : todos os valores de são , então excede com probabilidade . é rejeitado quando isso acontece. $s_\alpha$ $-2 \sum_{i=1}^n \log p_i$ $H_0$ $p$ $\sim U(0,1)$ $-2 \sum_i \log p_i$ $s_\alpha$ $\alpha$ $H_0$

Normalmente, toma-se e é dado por um quantil de . Equivalentemente, pode-se trabalhar no produto que é menor que com probabilidade . Aqui está, para , um gráfico mostrando a zona de rejeição (em vermelho) (aqui usamos . A zona de rejeição tem área = 0,05. $\alpha = 0.05$ $s_\alpha$ $\chi^2(2n)$ $\prod_i p_i$ $e^{-s_\alpha/2}$ $\alpha$ $n=2$ $s_\alpha = 9.49$

Fisher

Agora você pode optar por trabalhar em vez disso, ou equivalente em . Você só precisa encontrar um limite tal que esteja abaixo de com probabilidade ; o cálculo exato é tedioso - pois grande o suficiente você pode confiar no teorema do limite central; para , . O gráfico a seguir mostra a zona de rejeição (área = 0,05 novamente). ${1\over n} \sum_{i=1}^n p_i$ $\sum_i p_i$ $t_\alpha$ $\sum p_i$ $t_\alpha$ $\alpha$ $t_\alpha$ $n$ $n = 2$ $t_\alpha = (2\alpha)^{1\over 2}$

soma dos valores de p

Como você pode imaginar, muitas outras formas para a zona de rejeição são possíveis e foram propostas. Não é a priori claro o que é melhor - ou seja, o que tem maior poder.

Vamos supor que , sejam provenientes de um teste bilateral com o parâmetro 1 de não centralidade: $p_1$ $p_2$ $z$

> p1 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )
> p2 <- pchisq( rnorm(1e4, 1, 1)**2, df=1, lower.tail=FALSE )

Vamos dar uma olhada no gráfico de dispersão com em vermelho os pontos para os quais a hipótese nula é rejeitada.

Gráfico de dispersão

O poder do método do produto de Fisher é aproximadamente

> sum(p1*p2<exp(-9.49/2))/1e4
[1] 0.2245

A potência do método baseada na soma dos valores de é aproximadamente $p$

> sum(p1+p2<sqrt(0.1))/1e4
[1] 0.1963

Então o método de Fisher vence - pelo menos nesse caso.

— Elvis
fonte

Obrigado, ótimas edições (+1). Para a distribuição nula é uma distribuição triangular; portanto, . Para a distribuição nula já está bastante envolvida (é uma densidade de três partes), mas felizmente para ela já pode ser aproximada muito bem por uma distribuição normal com média e variação .

n = 2

$n=2$

t_{α} = \sqrt{2 α}

$t_\alpha=\sqrt{2\alpha}$

n = 3

$n=3$

n > 3

$n > 3$

0.5 * n

$0.5*n$

n / 12

$n/12$

— Momo

+1. Observe que a adição de valores- é chamada de método de Edgington ; veja minha resposta abaixo para obter uma bibliografia.

p

$p$

— Ameba diz Reinstate Monica

O que há de errado em resumir todos os valores de individuais ? $p$

Como @whuber e @Glen_b argumentam nos comentários, o método de Fisher está basicamente multiplicando todos os valores de individuais , e multiplicar probabilidades é uma coisa mais natural a ser feita do que adicioná-los. $p$

Ainda é possível adicioná-los. De fato, precisamente isso foi sugerido por Edgington (1972), um método aditivo para combinar valores de probabilidade de experimentos independentes (sob pay-wall), e às vezes é chamado de método de Edgington. O artigo de 1972 conclui alegando que

O método aditivo mostra-se mais poderoso que o método multiplicativo, tendo uma probabilidade maior do que o método multiplicativo de produzir resultados significativos quando há realmente efeitos de tratamento.

mas, como o método permanece relativamente desconhecido, suspeito que isso seja pelo menos uma simplificação excessiva. Por exemplo, uma visão geral recente de Cousins (2008). A bibliografia anotada de alguns artigos sobre combinação de valores ou valores-p não menciona o método de Edgington e parece que esse termo também nunca foi mencionado no CrossValidated.

É fácil criar várias maneiras de combinar valores- (uma vez eu mesmo criei uma e perguntei por que ela nunca é usada: método Z-score de Stouffer: e se somarmos vez de ? ), e o que é um método melhor é em grande parte uma questão empírica. Por favor, veja a resposta do @ whuber aqui para uma comparação empírica do poder estatístico de dois métodos diferentes em uma situação específica; há um vencedor claro. $p$ $z^2$ $z$

Portanto, a resposta para a pergunta geral sobre por que usar qualquer método "complicado" é que se pode ganhar poder.

Zaykin et al (2002) Método Truncado do Produto para Combinar Valores-p executa algumas simulações e inclui o método de Edgington na comparação, mas não tenho certeza sobre as conclusões.

Uma maneira de visualizar todos esses métodos é desenhar regiões de rejeição para , como @Elvis fez em sua bela resposta (+1). Aqui está outra figura que inclui explicitamente o método de Edgington do que parece ser um pôster Winkler et al (2013) Combinação não paramétrica para análises de imagens multi-modais : $n=2$

Combinando valores-p

Dito tudo isso, acho que ainda resta uma questão de por que o método de Edgington (muitas vezes?) Seria abaixo do ideal, como segue sendo obscuro.

Talvez uma razão para a obscuridade seja que ela não se adapta muito bem à nossa intuição: para , se (ou superior), não importa qual seja o valor de , o nulo combinado não será rejeitado em , isto é, mesmo que, por exemplo, . $n=2$ $p_1 = 0.4$ $p_2$ $\alpha=0.05$ $p_2 = 0.00000001$

De maneira mais geral, a soma dos valores de dificilmente distingue números muito pequenos, como por exemplo, de , mas a diferença nessas probabilidades é realmente enorme. $p$ $p=0.001$ $p=0.00000001$

Atualizar. Aqui está o que Hedges e Olkin escrevem sobre o método de Edgintgon (depois de revisar outros métodos para combinar valores- ) em seu Statistical Methods for Meta-Analysis (1985), enfatizando o meu: $p$

Um procedimento de teste combinado bem diferente foi proposto por Edgington (1972a, b). Edgington proposto combinar -Valores tomando a soma e deu um método simples tedioso, mas para a obtenção de níveis de significância para . Uma grande amostra aproximada dos níveis de significância de é dada em Edgington (1972b). Embora seja um procedimento de combinação monótona e, portanto, seja admissível, o método de Edgington é geralmente considerado um procedimento ruim, pois um valor- grande pode sobrecarregar muitos valores pequenos que compõem a estatística. No entanto, quase não houve investigações numéricas desse procedimento. $p$
$S = p_{1} + \dots + p_{k},$ $S = p_1 + \cdots + p_k,$ $S$ $S$ $p$

— ameba diz Restabelecer Monica
fonte

Obrigado, @Glen_b! Estou feliz que este tópico tenha alguma visibilidade adicional e merecida. A propósito, eu não sabia que esse procedimento se chama "método de Edgington" até começar a pesquisar essa resposta.

— Ameba diz Reinstate Monica

Então, se você fez três estudos de tamanhos semelhantes e obteve um valor p de 0,05 nas três ocasiões, sua intuição é que o "valor verdadeiro" seja 0,05? Minha intuição é diferente. Vários resultados semelhantes parecem aumentar a significância (e, portanto, os valores de p ~~que são probabilidades~~ devem ser mais baixos). Valores-p não são realmente probabilidades. São afirmações sobre a distribuição amostral dos valores observados sob uma hipótese específica. Eu acredito que isso pode ter dado suporte à noção de que alguém pode usá-los mal como tal. Lamento fazer essa afirmação.

De qualquer forma, sob a hipótese nula de nenhuma diferença, as chances de obter múltiplos valores p extremos pareceriam muito mais improváveis. Toda vez que vejo a afirmação de que o valor p é uniformemente distribuído de 0-1 sob a hipótese nula, sinto-me compelido a testá-lo com simulação, e até agora a afirmação parece valer. Aparentemente, não penso conscientemente em uma escala logarítmica, embora pelo menos parte da minha rede neural cerebral deva.

Se você deseja quantificar essa intuição, a fórmula que você ofereceu (com pequenas revisões) aparece na página da Wikipedia: http://en.wikipedia.org/wiki/Fisher%27s_method , e o gráfico associado permite quantificar visualmente e semi- quantitativamente, o impacto de obter dois pequenos valores de p na significância geral. Por exemplo, lendo a partir do gráfico codificado por cores, 2 valores p simultâneos de 0,05 dariam um valor p sintético em torno de 0,02. Você também pode investigar o impacto nas estatísticas t de duplicar o tamanho da amostra. O tamanho da amostra entra na estatística t da amostra como 1 / sqrt (n-1) para que você possa ver o impacto desse fator como resultado de passar de 50 para 100. (em R :)

 plot(1:100, 1/sqrt(1:100) ,ylim=c(0,1) )
 abline(h=1/sqrt(c(50,100)))

Essas duas abordagens produzem resultados quantitativos diferentes, uma vez que a razão de 1 / sqrt (n) para 50 e 100 não é a mesma de 0,05 a 0,02. Ambas as abordagens sustentam minha intuição, mas em graus diferentes. Talvez alguém possa resolver essa discrepância. No entanto, uma terceira abordagem seria considerar a probabilidade de obter dois sorteios aleatórios de "Verdadeiro" quando a probabilidade binomial de cada sorteio fosse 0,05. (um dado extremamente injusto) Esse evento conjunto deve ter uma probabilidade de 0,05 * 0,05 = 0,002, cujo resultado pode ser considerado no "outro lado" da estimativa de Fisher. Acabei de executar uma simulação de 50.000 t.testes simultâneos. Se você plotar os resultados, eles se parecerão muito com os mapas do campo de radiação cósmica de fundo ... ou seja. principalmente aleatório.

 t1 <- replicate(50000, t.test(rnorm(50))$p.value )
     t2 <- replicate(50000, t.test(rnorm(50))$p.value )
 table(t1 < 0.05, t2 < 0.05)
 plot(t1, t2, cex=0.1)
#        FALSE  TRUE
#  FALSE 45099  2411
#  TRUE   2380   110
 110/(50000-110)
#[1] 0.002204851

— DWin
fonte

Obrigado pela sua resposta. A intuição que você mencionou realmente faz sentido. Eu consideraria os casos que você mencionou como mais significativos. Mas existe uma maneira de expressar essa ideia de forma matematicamente rigorosa?

— Alby

Esta resposta (primeira sentença) assume que, ao calcular a média dos valores- , o corte de significância permaneceria o mesmo, mas não é verdadeiro. A média pode funcionar muito bem. Veja a resposta de @Elvis.

p

$p$

a l p h a

$alpha$

— Ameba diz Reinstate Monica

Eu vi. Não estava convencido.

— Dwin

Você não parecem notar que, com o "método de média" e dois experimentos com e , a hipótese nula é rejeitada (ver segundo desenho na minha resposta acima).

p_{1} = 0.05

$p_1 = 0.05$

p_{2} = 0.05

$p_2 = 0.05$

— Elvis

O método de média "enfatiza" ou pondera a hipótese composta de que ambas as hipóteses individuais devem ser rejeitadas juntas. Isso parece ser uma restrição tácita.

— DWin