Tamanho mínimo da amostra para teste t não pareado


16

Existe uma "regra" para determinar o tamanho mínimo da amostra necessário para que um teste t seja válido?

Por exemplo, uma comparação precisa ser realizada entre as médias de 2 populações. Existem 7 pontos de dados de uma população e apenas 2 pontos de dados da outra. Infelizmente, o experimento é muito caro e demorado, e a obtenção de mais dados não é viável.

Um teste t pode ser usado? Por que ou por que não? Forneça detalhes (as variações e distribuições da população não são conhecidas). Se um teste t não puder ser usado, um teste não paramétrico (Mann Whitney) pode ser usado? Por que ou por que não?


2
Esta pergunta cobre material semelhante e será de interesse dos espectadores desta página: Existe um tamanho mínimo de amostra necessário para que o teste t seja válido? .
gung - Restabelece Monica

Veja também esta pergunta onde é discutido o teste com tamanhos de amostra ainda menores.
Glen_b -Reinstala Monica

Respostas:


8

Eu recomendo usar o teste U não-paramétrico de Mann-Whitney em vez de um teste t não pareado aqui.

Não há tamanho mínimo absoluto da amostra para o teste t , mas, à medida que os tamanhos das amostras diminuem, o teste se torna mais sensível à suposição de que as duas amostras são retiradas de populações com uma distribuição normal. Com amostras tão pequenas, especialmente com uma amostra de apenas duas, você precisa ter certeza de que as distribuições populacionais foram normais - e isso deve se basear no conhecimento externo, pois essas amostras pequenas fornecem muito pouca informação sobre elas. a normalidade ou não de suas distribuições. Mas você diz que "as variações e distribuições da população não são conhecidas" (meu itálico).

O teste U de Mann-Whitney não exige nenhuma suposição sobre a forma paramétrica das distribuições, exigindo apenas o pressuposto de que as distribuições dos dois grupos são iguais na hipótese nula.


6
Não é uma boa recomendação para amostras extremamente pequenas. Com 7 e 2 amostras, o teste U falhará, por maior que seja a diferença entre a média dos grupos. Veja a minha resposta para um exemplo.
precisa saber é o seguinte

2
Em segundo lugar, o que diz @AlefSin. Se for importante para você tirar conclusões válidas (e não apenas obter um valor p), então as suposições mais ressonáveis ​​que você pode melhorar. Se houver informações básicas razoáveis, você também poderá adicionar ainda mais suposições se fizer sua análise em uma estrutura bayesiana.
Rasmus Bååth

2
Um problema é que, com tamanhos de amostra tão pequenos, o Wilcoxon-Mann-Whitney não pode atingir níveis de significância típicos. Com tamanhos de amostra de 7 e 2, você nunca obterá um resultado significativo no nível de 5%, independentemente da diferença flagrante. Considere (1.018,1.031,1.027,1.020,1.021,1.019,1.024) vs (713.2, 714.5) - não significativo no nível de 5%!
Glen_b -Reinstala Monica 30/03

3
Dito isto, se alguém tiver e n 2 = 2 , há um argumento muito bom que se deve talvez considerar se um teste de 5% faz sentido em primeiro lugar. Uma avaliação adequada do custo dos dois tipos de erros pode levar a uma escolha bem diferente. n1=7n2=2
Glen_b -Reinstala Monica

6

(aviso: hoje não consigo digitar bem: minha mão direita está fraturada!)

Ao contrário do conselho de usar um teste não paramétrico em outras respostas, você deve considerar que, para tamanhos de amostra extremamente pequenos, esses métodos não são muito úteis. É fácil entender o porquê: em estudos com tamanho extremamente pequeno, nenhuma diferença entre grupos pode ser estabelecida, a menos que um grande tamanho de efeito seja observado. Métodos não paramétricos, no entanto, não se importam com a magnitude da diferença entre os grupos. Assim, mesmo que a diferença entre os dois grupos seja enorme, com um tamanho pequeno de amostra, um teste não paramétrico sempre falha em rejeitar a hipótese nula.

Considere este exemplo: dois grupos, distribuição normal, mesma variação. Grupo 1: média 1,0, 7 amostras. Grupo 2: média 5, 2 amostras. Há uma grande diferença entre as médias.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

O valor p calculado é 0,05556, que não rejeita a hipótese nula (em 0,05). Agora, mesmo se você aumentar a distância entre as duas médias por um fator de 10, obterá o mesmo valor p:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Agora, convido você a repetir a mesma simulação com o teste t e observar os valores de p no caso de diferenças grandes (média 5 vs 1) e enormes (média 50 vs 1).


5

Não há tamanho mínimo de amostra para um teste t; o teste t foi, de fato, projetado para pequenas amostras. Antigamente, quando as tabelas eram impressas, você via tabelas de teste t para amostras muito pequenas (medidas por df).

Obviamente, como em outros testes, se houver uma amostra pequena, apenas um efeito bastante grande será estatisticamente significativo.


Mas será o contrário também um problema? Ou seja, os valores discrepantes que foram amostrados podem levar a uma falsa rejeição da hipótese nula? Ou a baixa potência para detectar diferenças é um problema maior? Nesta situação em particular, estou vendo uma diferença significativa entre os meios, mas não sei o quanto "confiar" nele.
Johnny intrigou

2
Com n = 2, você está definitivamente vulnerável à influência de discrepantes - discrepantes na população; como uma amostra de 2 pode ter um outlier dentro da amostra? :-) Eu não tentaria nenhuma estatística inferencial nessa situação. As perspectivas são ruins para se chegar à "verdade", e você estará se deixando aberto a críticas.
Rolando2

2
A razão pela qual o intervalo de confiança será amplo é precisamente porque você pode obter uma discrepância. Mas o teste t ainda assume que as amostras são de uma população normal.
Peter Flom - Restabelece Monica

2

Suponho que você queira dizer que você tem 7 pontos de dados de um grupo e 2 pontos de dados de um segundo grupo, ambos subconjuntos de populações (por exemplo, subconjunto de machos e subconjunto de fêmeas).

A matemática para o teste t pode ser obtida em nesta página da Wikipedia . Assumiremos um teste t independente para duas amostras, com tamanhos de amostra desiguais (7 vs. 2) e variações desiguais, aproximadamente na metade da página. Você pode ver que o cálculo é baseado em médias e desvios padrão. Com apenas 7 sujeitos em um grupo e 2 sujeitos em outro, você não pode assumir que possui boas estimativas para a média ou o desvio padrão. Para o grupo com 2 sujeitos, a média é simplesmente o valor que está exatamente no meio dos dois pontos de dados, portanto, não é bem estimado. Para o grupo com 7 sujeitos, o tamanho da amostra afeta fortemente as variações (e, portanto, os desvios padrão, que são a raiz quadrada da variação), porque valores extremos exercem um efeito muito mais forte quando você tem uma amostra menor.

Por exemplo, se você olhar para o exemplo básico na página da Wikipedia para o desvio padrão , verá que o desvio padrão é 2, e a variação (quadrado do desvio padrão) é, portanto, 4. Mas se tivéssemos apenas os dois primeiros pontos de dados (o 9 e o 1), a variação seria 10/2 = 5 e o desvio padrão seria 2,2 e, se tivéssemos apenas os dois últimos valores (4 e 16), a variação seria 20/2 = 10 e o desvio padrão seria 3,2. Ainda estamos usando os mesmos valores, apenas menos deles, e podemos ver o efeito em nossas estimativas.

Esse é o problema do uso de estatísticas inferenciais com pequenos tamanhos de amostra; seus resultados serão particularmente afetados pela amostragem.

Atualização: existe alguma razão pela qual você não pode simplesmente relatar os resultados por assunto e indicar que este é um trabalho exploratório? Com apenas dois casos, os dados são muito semelhantes a um estudo de caso, e ambos são (1) importantes para escrever e (2) prática aceita.


Obrigado Michelle. Isso é interessante e útil para saber. No entanto, o que você recomendaria do ponto de vista prático? Diante dessa situação, qual é a melhor maneira de proceder? Obrigado!
Johnny intrigou

Oi Johnny intrigado. Sem mais informações sobre sua situação exata, sinto-me incapaz de dar mais orientações.
Michelle

Que tipo de informação é necessária?
Johnny intrigou

1
Olá novamente, mais informações sobre o desenho do seu estudo, como quais são os seus dados, como você os coletou, quais são os seus grupos, como as observações foram selecionadas. Tudo o que sei é que você fez um experimento com 9 observações (pessoas? Ratos? Neurônios? Blocos de queijo? Frequências de radiação?) Que são de dois grupos.
Michelle

Digamos que o fluxo sanguíneo médio para a substância branca no cérebro foi medido em humanos usando ressonância magnética. Os grupos são controles (7 pessoas) e pacientes pareados por idade / sexo com um distúrbio específico (2 pessoas).
Johnny Intrigado

1

Artigo interessante: 'Usando o teste t de Student com tamanhos de amostra extremamente baixos' JCF de Winter (em Avaliação prática, pesquisa e avaliação) http://goo.gl/ZAUmGW


0

Eu recomendaria comparar as conclusões que você obtém com ambos, o teste t e o teste de Mann-Whitney, e também dar uma olhada nos boxplots e na probabilidade de perfil da média de cada população.


Oi @ Demian, não tenho certeza de que mesmo um boxplot seja útil quando um grupo tiver um tamanho de amostra igual a 2. Caso contrário, sim, acho que os boxplots em particular são muito úteis na visualização de dados contínuos entre os grupos.
Michelle

0

Código Stata 13 / SE para um teste de bootstrapComo um teste realizado em amostras pequenas provavelmente não atende aos requisitos de teste (principalmente a normalidade das populações das quais as duas amostras foram extraídas), eu recomendaria realizar um teste de autoinicialização (com variações desiguais), seguindo Efron B, Tibshirani Rj. Uma introdução ao Bootstrap. Boca Raton, FL: Chapman & Hall / CRC, 1993: 220-224. O código para um teste de autoinicialização nos dados fornecidos por Johnny Puzzled no Stata 13 / SE é relatado na imagem acima.


Sua resposta tem sérios problemas de formatação, você se importaria de editá-la?
ameba diz Restabelecer Monica

Tentei resolver problemas de formatação na versão revisada da resposta. Obrigado à ameba por apontar isso.
Carlo Lazzaro

0

Com um tamanho de amostra 2, a melhor coisa a fazer pode ser olhar os números individuais e nem mesmo se preocupar com a análise estatística.


1
No momento, isso parece mais um comentário. Embora esse seja um bom argumento, para uma resposta razoável ao problema original, pode-se esperar alguma discussão sobre o problema em si, mesmo que, em última análise, se conclua que faz mais sentido fazer outra coisa.
Glen_b -Reinstala Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.