Eu tenho três grupos de dados, cada um com uma distribuição binomial (ou seja, cada grupo tem elementos que são sucesso ou fracasso). Não tenho uma probabilidade prevista de sucesso, mas só posso confiar na taxa de sucesso de cada um como uma aproximação para a verdadeira taxa de sucesso. Eu só encontrei essa pergunta , que está próxima, mas não parece exatamente lidar com esse cenário.
Para simplificar o teste, digamos que eu tenho 2 grupos (3 podem ser estendidos a partir deste caso base).
- grupo 1: = 2455
- Ensaios do grupo 2: = 2730
- Sucesso no grupo 1: = 1556
- Sucesso no grupo 2: = 1671
Não tenho uma probabilidade esperada de sucesso, apenas o que sei das amostras. Portanto, minha taxa de sucesso implícita para os dois grupos é:
- Taxa de sucesso do grupo 1: = 1556/2455 = 63,4%
- Taxa de sucesso do grupo 2: = 1671/2730 = 61,2%
A taxa de sucesso de cada amostra é bastante próxima. No entanto, meus tamanhos de amostra também são bastante grandes. Se eu verificar o CDF da distribuição binomial para ver quão diferente ela é da primeira (onde estou assumindo que a primeira é o teste nulo), recebo uma probabilidade muito pequena de que a segunda seja alcançada.
No Excel:
1-BINOM.DIST (1556,2455,61,2%, VERDADEIRO) = 0,012
No entanto, isso não leva em consideração nenhuma variação do primeiro resultado, apenas assume que o primeiro resultado é a probabilidade do teste.
Existe uma maneira melhor de testar se essas duas amostras de dados são realmente estatisticamente diferentes uma da outra?
prop.test
: prop.test(c(1556, 1671), c(2455, 2730))
.