Como interpretar um gráfico QQ de valores-p

Estou fazendo estudos de associação do GWAS SNP sobre doenças usando um software chamado plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ).

Com os resultados da associação, obtenho valores de p para todos os SNPs analisados. Agora, eu uso um gráfico QQ desses valores p para mostrar se um valor p muito baixo difere da distribuição esperada de valores p (uma distribuição uniforme). Se um valor p se desviar da distribuição esperada, um "poderá" chamar esse valor p para significância estatística.

Como você pode ver no gráfico QQ, no final da cauda, os últimos 4 pontos são um pouco difíceis de interpretar. Dois dos últimos pontos em cinza sugerem que esses valores p estão na distribuição esperada dos valores p, enquanto os outros dois não.

Agora, como interpretar isso, os dois últimos pontos têm valores de p mais baixos, mas não são "significativos" de acordo com o gráfico QQ, enquanto os outros dois pontos com valores de p mais altos são "significativos"? Como pode isto ser verdade?

insira a descrição da imagem aqui

qq-plot

— eXpander
fonte

Um problema com o uso de gráficos de QQ para interpretar o GWAS é que os valores de p não são independentes um do outro e, de fato, os valores de p mais extremos provavelmente estão correlacionados. Eu acho que seus quatro principais hits provavelmente estão no mesmo cromossomo e estão próximos o suficiente um do outro para que o LD esteja causando correlação entre eles. Se você executasse o teste que forneceu o segundo valor p mais baixo condicional no SNP com o valor p mais baixo, acho que o valor p cairia na faixa não excepcional. O mesmo provavelmente aconteceria com muitos dos outros hits aparentes.

— 21720 Sam Smithson

Já fiz isso, removi o conjunto de dados do SNP para obter apenas SNPs independentes (usando um quadrado de r de 0,8 como ponto de corte). Este gráfico QQ mostra os resultados de SNPs independentes ou SNPs em LD <0.8.

— EXpander # 7/14

O SNP mais baixo corresponde ao cromossomo 6, o segundo ao cromossomo 2, o terceiro ao cromossomo 5, o quarto ao cromossomo 9, então não tenho tanta certeza de que o LD seja um problema aqui.

— expansor

Posso perguntar como você fez esse enredo? Posso obter algo semelhante, mas com valores de qui-quadrado ou valores de p, mas sem a sombra cinza e preciso de um com valores-p e a sombra cinza. Se você pudesse compartilhar o código usado, seria ótimo. Obrigado.

— Aleix Arnau 15/05

Aqui folk.uio.no/tores/Publications_files/… é um artigo clássico sobre esse problema.

— Kjetil b halvorsen

Respostas:

Uma boa referência na análise de gráficos de valor p é [1].

O resultado que você está vendo pode ser determinado pelo fato de o sinal / efeitos existir apenas em alguns subconjuntos de testes. Eles são direcionados acima das faixas de aceitação. Rejeitar apenas o valor p fora das bandas pode realmente ser justificado, mas talvez mais importante, você deve decidir qual é o critério de erro que deseja controlar ao selecionar seu procedimento de seleção (FWER, FDR). Você pode consultar [2] para essa escolha e referências para escolher o procedimento de teste múltiplo apropriado.

[1] Schweder, T. e E. Spjotvoll. "Gráficos de valores-P para avaliar muitos testes simultaneamente." Biometrika 69, no. 3 (dezembro de 1982): 493–502. doi: 10.2307 / 2335984.

[2] Rosenblatt, Jonathan. “Guia do profissional para várias taxas de erro de teste.” ArXiv e-print. Universidade de Tel Aviv, 17 de abril de 2013. http://arxiv.org/abs/1304.4920 .

— JohnRos
fonte

Essa é uma pergunta mais antiga, mas achei útil ao tentar interpretar QQPlots pela primeira vez. Pensei em acrescentar essas respostas caso mais pessoas se deparem com isso no futuro.

O que achei um pouco complicado de entender é exatamente o que são esses pontos? Eu descobri que ir ao código tornava fácil descobrir.

Aqui está um código R que eu adaptei GWASTools::qqPlotque implementa um QQPlot em 3 linhas:

simpleQQPlot = function (observedPValues) {
  plot(-log10(1:length(observedPValues)/length(observedPValues)), 
       -log10(sort(observedPValues)))
  abline(0, 1, col = "red")
}

Aqui está um exemplo. Você tem 5 valores-p. O simpleQQPlot gerará 5 valores correspondentes a partir de uma distribuição uniforme entre 0 e 1. Estes serão: .2 .4 .6 .8 e 1. Portanto, o simpleQQPlot espera que o seu menor valor p seja em torno de 0,2 e o seu maior em torno. 1. O simpleQQPlot classificará seus valores e emparelhará cada um com o valor gerado correspondente. Assim, .2 será emparelhado com o valor mais baixo, 1 com o valor mais alto e assim por diante. Em seguida, esses valores emparelhados são plotados (após obter os logs negativos), com X sendo o pvalor gerado e Y sendo o valor observado emparelhado. Se seus valores observados também foram extraídos de uma distribuição normal, os pontos devem ficar aproximadamente na linha reta. Por causa da classificação, os pontos sempre aumentam monotonicamente. Portanto, cada ponto subsequente terá um X maior e um Y maior ou igual a.

Portanto, no exemplo original acima, o 9.997º valor p classificado era de cerca de 5,2, mas era esperado que fosse de cerca de 4,1 se seguisse uma distribuição normal. (Nota: não tenho certeza de quantos valores de p foram plotados acima - adivinhei 10k).

— Breck
fonte