Queria entender melhor o teste exato de Fisher, então inventei o seguinte exemplo de brinquedo, em que f e m correspondem a homens e mulheres e n e y correspondem a "consumo de refrigerante" como este:
> soda_gender
f m
n 0 5
y 5 0
Obviamente, isso é uma simplificação drástica, mas eu não queria que o contexto atrapalhasse. Aqui, presumi que os homens não bebem refrigerante e as mulheres bebem refrigerante, e queriam ver se os procedimentos estatísticos chegaram à mesma conclusão.
Quando executo o teste exato de Fisher em R, obtenho os seguintes resultados:
> fisher.test(soda_gender)
Fisher's Exact Test for Count Data
data: soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.0000000 0.4353226
sample estimates:
odds ratio
0
Aqui, como o valor de p é 0,007937, concluiríamos que o consumo de gênero e refrigerante está associado.
Eu sei que o teste exato de Fisher está relacionado à distribuição hipergeomérica. Então, eu queria obter resultados semelhantes usando isso. Em outras palavras, você pode visualizar esses problemas da seguinte maneira: existem 10 bolas, onde 5 são rotuladas como "masculinas" e 5 são rotuladas como "femininas" e você desenha 5 bolas aleatoriamente sem substituição e vê 0 bolas masculinas . Qual é a chance dessa observação? Para responder a essa pergunta, usei o seguinte comando:
> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254
Minhas perguntas são: 1) Como os dois resultados são diferentes? 2) Existe algo incorreto ou não rigoroso no meu raciocínio acima?