Respostas:
Há muita discussão sobre isso no site da AP .
Você pode usar qualquer estatística que desejar, desde que seja claro sobre o que faz e observe a distribuição nula apropriada para calcular valores-p ou limites.
Mas algumas estatísticas são melhores que outras; nesse caso, você procuraria (a) distribuição nula facilmente calculável e (b) poder para detectar diferenças.
Mas não sei por que você preferiria a variação não agrupada sobre a variação agrupada para o teste, embora possa ser preferido no cálculo de um intervalo de confiança para a diferença.
A variação não agrupada tende a ser muito pequena. Isso ocorre porque, sob a hipótese nula, ainda haverá variação de chance nas duas proporções observadas, embora as probabilidades subjacentes sejam iguais. Essa variação de chance contribui para a variação combinada, mas não para a variação não combinada.
Como resultado, para a estatística não agrupada nem tem aproximadamente uma distribuição normal padrão. Por exemplo, quando e as probabilidades verdadeiras são , a variação de é apenas vez de . Ao usar tabelas da distribuição normal padrão, você obtém valores p incorretos: eles tendem a ser artificialmente pequenos, rejeitando com freqüência o nulo com muita frequência quando a evidência não está realmente lá.
No entanto, questiona-se se isso poderia ser corrigido. Pode. A questão torna-se se um valor corrigido de , com base em estimativas não agrupadas, poderia ter maior poder para detectar desvios da hipótese nula. Algumas simulações rápidas sugerem que esse não é o caso: o teste agrupado (comparado a um teste não agrupado devidamente ajustado) tem uma chance maior de rejeitar o nulo sempre que o nulo for falso. Portanto, não me incomodei em elaborar a fórmula para a correção não agrupada; parece inútil.
Em resumo, o teste não agrupado está errado, mas com uma correção apropriada, pode ser tornado legítimo. No entanto, parece ser inferior ao teste combinado.