Eu não sei nada sobre estudos de expressão gênica, mas tenho algum interesse em inferência múltipla, então arriscarei uma resposta sobre essa parte da pergunta de qualquer maneira.
Pessoalmente, eu não abordaria o problema dessa maneira. Eu ajustaria o nível de erro nos estudos originais, calcularia a nova sobreposição e deixaria o teste sozinho. Se o número de genes diferencialmente expressos (e qualquer outro resultado que você estiver usando) já for baseado em testes ajustados, eu diria que você não precisa fazer nada.
Se você não pode voltar aos dados originais e realmente deseja ajustar o valor- p , pode realmente multiplicá-lo pelo número de testes, mas não vejo por que deve ter algo a ver com o tamanho da lista2. Faria mais sentido ajustar o número total de testes realizados nos dois estudos (ou seja, duas vezes a população). Isso vai ser brutal, no entanto.
Para ajustar os valores de p em R, você pode usar p.adjust(p)
, onde p
é um vetor de valores de p .
p.adjust(p, method="bonferroni") # Bonferroni method, simple multiplication
p.adjust(p, method="holm") # Holm-Bonferroni method, more powerful than Bonferroni
p.adjust(p, method="BH") # Benjamini-Hochberg
Conforme declarado no arquivo de ajuda, não há razão para não usar Holm-Bonferroni sobre Bonferroni, pois também fornece um forte controle da taxa de erro familiar em qualquer caso, mas é mais poderoso. Benjamini-Hochberg controla a taxa de descoberta falsa, que é um critério menos rigoroso.
Editado após o comentário abaixo:
Quanto mais penso no problema, mais penso que uma correção para múltiplas comparações é desnecessária e inadequada nessa situação. É aqui que a noção de uma "família" de hipóteses entra em ação. Seu último teste não é comparável a todos os testes anteriores, não há risco de "capitalizar o acaso" ou colher resultados significativos, existe apenas um teste de interesse e é legítimo usar o nível de erro comum para este.
Mesmo que você corrija agressivamente os muitos testes realizados anteriormente, ainda assim não estaria abordando diretamente a principal preocupação, que é o fato de que alguns dos genes das duas listas podem ter sido espuriosamente detectados como expressos diferencialmente. Os resultados do teste anterior ainda permanecem válidos e, se você deseja interpretar esses resultados enquanto controla a taxa de erro familiar, ainda precisa corrigir todos eles.
Mas se a hipótese nula realmente for verdadeira para todos os genes, qualquer resultado significativo seria um falso positivo e você não esperaria que o mesmo gene fosse sinalizado novamente na próxima amostra. Portanto, a sobreposição entre as duas listas aconteceria apenas por acaso e é exatamente isso que o teste baseado na distribuição hipergeométrica está testando. Portanto, mesmo que as listas de genes sejam lixo completo, o resultado desse último teste é seguro. Intuitivamente, parece que qualquer coisa intermediária (uma mistura de hipóteses verdadeiras e falsas) também deve estar bem.
Talvez alguém com mais experiência nesse campo possa pesar, mas acho que um ajuste só seria necessário se você quiser comparar o número total de genes detectados ou descobrir quais são expressos diferencialmente, ou seja, se você quiser interpretar os milhares de indivíduos. testes realizados em cada estudo.