Aqui estão quatro conjuntos diferentes de números:
A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1,8, 1,2, 1,1}
Usando um teste t de duas amostras sem assumir variações iguais, comparo B, C e D a A e obtenho os seguintes valores de p:
Qual o valor de x na
equação ax + bx +
c
= 0?
Acho estranho que o valor p do teste AD seja pior que o teste AC: a diferença entre as médias é claramente muito maior E a variação de D é muito menor que a variação de C. Intuitivamente (pelo menos para minha intuição) ), esses dois fatos devem reduzir o valor de p.
Alguém poderia explicar se esse é um comportamento desejado ou esperado do teste t ou se ele tem mais a ver com meu conjunto de dados específico (talvez um tamanho extremamente baixo de amostra?). O teste t é inadequado para esse conjunto de dados em particular?
De um ponto de vista puramente computacional, a razão para um valor p pior parece ser o grau de liberdade, que na comparação do AD é de 2,018, enquanto na comparação do AC é de 3,566. Mas certamente, se você apenas visse esses números, não pensaria que existem evidências mais fortes para rejeitar a hipótese nula no caso do AD em comparação com o CA?
Alguns podem sugerir que isso não é um problema aqui, pois todos os valores-p são bastante baixos. Meu problema é que esses três testes fazem parte de um conjunto de testes que estou realizando. Após a correção para vários testes, a comparação do AD não faz o corte, enquanto a comparação do CA faz. Imagine plotar esses números (digamos gráficos de barras com barras de erro, como os biólogos costumam fazer) e tentar justificar por que C é significativamente diferente de A, mas D não é ... bem, eu não posso.
Atualização: por que isso é realmente importante
Deixe-me esclarecer por que essa observação pode ter um grande impacto na interpretação de estudos anteriores. Em bioinformática, vi o teste t ser aplicado em amostras pequenas em larga escala (pense na expressão diferencial de genes de centenas ou milhares de genes, ou o efeito de muitas drogas diferentes em uma linha celular, usando apenas 3-5 repetições ) O procedimento usual é fazer muitos testes t (um para cada gene ou medicamento), seguidos de várias correções de teste, geralmente FDR. Dada a observação acima do comportamento do teste t de Welch, isso significa que alguns dos melhores casos estão sendo sistematicamente filtrados. Embora a maioria das pessoas analise os dados reais das comparações no topo de sua lista (aqueles com melhores valores de p), não conheço ninguém que analise a lista de todas as comparações em que a hipótese nula não era ' t rejeitado.