Tamanhos de amostra desiguais: quando encerrar

14

Estou revisando um artigo de periódico acadêmico por pares e os autores escreveram o seguinte como justificativa para não reportar estatísticas inferenciais (eu identifiquei a natureza dos dois grupos):

No total, 25 dos 2,349 (1,1%) participantes relataram X . Abster-se adequadamente de apresentar análises que comparem estatisticamente o grupo X ao grupo Y (os outros 2.324 participantes), pois esses resultados podem ser fortemente influenciados pelo acaso, com um resultado tão raro.

Minha pergunta é: os autores deste estudo têm justificativa em jogar a toalha com relação à comparação de grupos? Caso contrário, o que posso recomendar a eles?

— Aaron Duke
fonte

20

Os testes estatísticos não fazem suposições sobre o tamanho da amostra. Obviamente, existem suposições diferentes com vários testes (por exemplo, normalidade), mas a igualdade do tamanho da amostra não é uma delas. A menos que o teste usado seja inadequado de alguma outra maneira (não consigo pensar em um problema no momento), a taxa de erro do tipo I não será afetada por tamanhos de grupo drasticamente desiguais. Além disso, o fraseado deles implica (na minha opinião) que eles acreditam que sim. Assim, eles estão confusos sobre essas questões.

Por outro lado, as taxas de erro do tipo II serão afetadas por s altamente desiguais . Isso será verdade, independentemente do teste (por exemplo, teste , teste Mann-Whitney ou teste de igualdade de proporções, todos serão afetados dessa maneira). Para um exemplo disso, veja minha resposta aqui: Como interpretar a comparação de médias de diferentes tamanhos de amostra? Assim, eles podem muito bem ser "justificados em jogar a toalha" com relação a esse problema. (Especificamente, se você espera obter um resultado não significativo, seja o efeito real ou não, qual é o objetivo do teste?) $n$ $t$ $U$ $z$

À medida que os tamanhos das amostras divergem, o poder estatístico converge para . Na verdade, esse fato leva a uma sugestão diferente, da qual suspeito que poucas pessoas já ouviram falar e provavelmente teriam problemas em passar por revisores (sem intenção de ofender): uma análise de poder de comprometimento . A idéia é relativamente direta: em qualquer análise de potência, , , , e o tamanho do efeito existem em relação um ao outro. Depois de especificar tudo, exceto um, você pode resolver o último. Normalmente, as pessoas fazem o que é chamado de análise de poder a priori , na qual você resolve $\alpha$ $\alpha$ $\beta$ $n_1$ $n_2$ $d$ $N$ (geralmente você está assumindo ). Por outro lado, você pode corrigir , , e , e resolver para (ou equivalentemente ), se você especificar a proporção do tipo I para tipo II taxas de erro que você está disposto a viver. Convencionalmente, e , então você está dizendo que os erros do tipo I são quatro vezes piores que os erros do tipo I. Obviamente, um determinado pesquisador pode discordar disso, mas, depois de especificar uma determinada proporção, você pode resolver o que $n_1=n_2$ $n_1$ $n_2$ $d$ $\alpha$ $\beta$ $\alpha=.05$ $\beta=.20$ $\alpha$ você deve estar usando para possivelmente manter energia adequada. Essa abordagem é uma opção logicamente válida para os pesquisadores nessa situação, embora reconheça que a exoticidade dessa abordagem possa torná-la uma venda difícil na comunidade de pesquisa mais ampla que provavelmente nunca ouviu falar de algo assim.

— Repor a Monica
fonte

Isso é incrivelmente útil. Também encontrei sua resposta para Como interpretar a comparação de médias de diferentes tamanhos de amostra? útil no meu próprio entendimento desta questão. Depois de ler sua resposta, trarei a possibilidade de uma análise de poder de comprometimento aos autores (parece uma aposta segura de que eles não estejam familiarizados com ela) e talvez sugira ser mais específico em seus comentários com relação a preocupações sobre poder.

— Aaron Duke

2

De nada, @AaronD. Na minha opinião, você definitivamente deve incentivá-los a alterar suas frases no mínimo, pois isso é enganoso ou implica que eles não entendem o tópico. Eu preveria que eles não tentariam a análise de poder de comprometimento, mas também poderiam apenas reportar estatísticas descritivas (médias e DPs) e um tamanho de efeito com intervalos de confiança apropriados.

— gung - Restabelece Monica

6

Embora a resposta do @gung seja excelente, acho que há uma questão importante que deve ser considerada ao analisar tamanhos de grupos muito diferentes. Geralmente, desde que todos os requisitos do teste sejam cumpridos, a diferença nos tamanhos dos grupos não é importante.

No entanto, em alguns casos, o tamanho do grupo diferente terá um efeito dramático na robustez do teste contra violações contra essa suposição. O teste t não pareado clássico de duas amostras, por exemplo, assume a homongenidade da variância e é robusto contra violações somente se os dois grupos tiverem tamanho semelhante (em ordem de magnitude). Caso contrário, uma variação maior no grupo menor levará a erros do tipo I. Agora, com o teste t, isso não é um grande problema, pois geralmente o teste t de Welch é usado e não assume homogeneidade de variância. No entanto, efeitos semelhantes podem surgir em modelos lineares.

Em resumo, eu diria que isso não é de modo algum um obstáculo para uma análise estatística, mas deve ser lembrado ao decidir como proceder.

— Erik
fonte

8

Acredito que o cerne da questão aqui não é a aplicabilidade dos testes, mas sua importância e interpretabilidade. A pergunta se refere a "entrevistados". Isso sugere fortemente a possibilidade de uma taxa de não resposta diferente de zero. Mesmo uma pequena taxa de não resposta (uma pequena fração de um por cento) em relação ao tamanho do estudo equivaleria a uma enorme taxa de não resposta em relação ao pequeno subgrupo. Isso põe em causa a representatividade de qualquer subgrupo tão pequeno. Como resultado, é um enorme obstáculo para qualquer análise estatística.

— whuber