Existe um tamanho mínimo de amostra necessário para que o teste t seja válido?


71

Atualmente, estou trabalhando em um trabalho de pesquisa quase experimental. Eu só tenho um tamanho de amostra de 15 devido à baixa população na área escolhida e que apenas 15 se enquadram nos meus critérios. 15 é o tamanho mínimo da amostra para calcular para o teste t e o teste F? Em caso afirmativo, onde posso obter um artigo ou livro para apoiar esse pequeno tamanho de amostra?

Este artigo já foi defendido na segunda-feira passada e um dos membros do painel pediu uma referência de suporte porque meu tamanho da amostra é muito baixo. Ele disse que deveria ter sido pelo menos 40 entrevistados.


4
Um tamanho de amostra pode ser substancialmente menor que 15 se as suposições forem válidas. A validade da distribuição t foi a única razão pela qual ele sugeriu uma amostra maior?
Glen_b

Apenas para esclarecer, que tipo de teste t você está realizando: uma amostra, amostra emparelhada ou duas amostras.
Jeromy Anglim

26
Historicamente, a primeira demonstração do teste t (no artigo de 1908 de "Student") foi aplicada a amostras de tamanhos quatro . De fato, obter melhores resultados para amostras pequenas é a reivindicação da fama do teste: uma vez que o tamanho da amostra chega aos 40 anos, o teste t não é substancialmente diferente dos testes z que os pesquisadores vinham aplicando ao longo do século XIX. Você pode compartilhar uma versão moderna deste documento com o membro do painel: york.ac.uk/depts/maths/histstat/student.pdf . Aponte a investigação na Seção VI, pp 14-18.
whuber

10
Mas você deve considerar o fato de que amostras pequenas, como 4, funcionam porque o Student possuía dados de alta qualidade: dados de laboratórios químicos, experimentos, não quase experimentos. Seu principal problema não está no tamanho da amostra, mas na representatividade: como você sabe que seus dados são representativos de alguma coisa?
Kjetil b halvorsen

10
@CzarinaFrancoise Por que nos limitamos a ciência com menos de 10 anos?
RioRaider 6/10/12

Respostas:


56

Não há tamanho mínimo de amostra para o teste t ser válido. A validade exige que as suposições para a estatística de teste sejam mantidas aproximadamente. Essas suposições estão no caso de uma amostra de que os dados são normais (ou aproximadamente normais) com média 0 sob a hipótese nula e uma variação desconhecida, mas estimada a partir da amostra. No caso de duas amostras, é que ambas as amostras são independentes uma da outra e cada amostra consiste em variáveis ​​normais de iid, com as duas amostras tendo a mesma média e uma variação desconhecida comum sob a hipótese nula. Uma estimativa combinada de variância é usada para a estatística.

No caso de uma amostra, a distribuição sob a hipótese nula é um t central com n-1 graus de liberdade. Nos dois casos de amostra com tamanhos de amostra n e m não necessariamente iguais, a distribuição nula da estatística de teste é t com n + m-2 graus de liberdade. A maior variabilidade devido ao baixo tamanho da amostra é explicada na distribuição que tem caudas mais pesadas quando o grau de liberdade é baixo, o que corresponde a um tamanho baixo da amostra. Portanto, é possível encontrar valores críticos para a estatística de teste ter um determinado nível de significância para qualquer tamanho de amostra (bem, pelo menos, tamanho 2 ou maior).

O problema com o tamanho reduzido da amostra está relacionado ao poder do teste. O revisor pode ter sentido que 15 por grupo não era um tamanho de amostra grande o suficiente para ter alto poder de detectar uma diferença significativa, digamos, delta entre as duas médias ou uma média maior que delta em valor absoluto para um problema de uma amostra. A necessidade de 40 exigiria uma especificação de uma certa potência em um delta específico que seria alcançado com n igual a 40, mas não inferior a 40.

Devo acrescentar que, para que o teste t seja realizado, a amostra deve ser grande o suficiente para estimar a variação ou as variações.


2
Mas uma observação importante é que o teste é válido, mesmo que os dados não sejam aproximadamente normais, se o tamanho da amostra for grande o suficiente. A justificativa é um pouco complicada (a distribuição do teorema de Slutsky + t se aproximando do normal) e a justificativa para uso em um teste z apenas pelo fato de ser mais conservadora em amostras menores. Mas é uma nota importante que, se suspeitarmos de não normalidade, amostras grandes podem nos salvar!
Cliff AB

11
@CliffAB Por "válido", suponho que você queira dizer "tem aproximadamente o nível de significância correto, no limite de n \ a \ infty". Mas geralmente as pessoas se preocupam com mais do que a taxa de erro do tipo I (especialmente quando ela pode estar razoavelmente próxima de amostras que podem ser maiores do que o tamanho da amostra disponível). Eficiência relativa assintótica pode ser muito pobre, assim poder contra pequenos efeitos em grandes amostras pode ser muito ruim em comparação com escolhas alternativas, assim como o tipo I taxa de erro torna-se o que deveria ser ..
Glen_b

33

Com toda a deferência para ele, ele não sabe do que está falando. O teste t foi projetado para trabalhar com pequenas amostras. Não há realmente um mínimo (talvez você possa dizer um mínimo de 3 para um teste t de uma amostra, IDK), mas você tem uma preocupação em relação à energia adequada com amostras pequenas. Você pode estar interessado em ler sobre as idéias por trás da análise de poder de comprometimento quando o tamanho da amostra possível for altamente restrito, como no seu caso.

Quanto a uma referência que prova que você pode usar o teste t com amostras pequenas, não conheço uma e duvido que exista. Por que alguém tentaria provar isso? A ideia é simplesmente boba.


6
+1 (para você e Michael). De interesse, você nem precisa de duas observações para fazer inferências se estiver disposto a fazer um conjunto de suposições!
Andy W

4
A razão para o teste t em amostra pequena é que, mesmo quando as amostras são normais, se o desvio padrão é desconhecido, a coisa comum a fazer é normalizar, dividindo por uma estimativa amostral do desvio padrão. Em amostras grandes, essa estimativa será próxima o suficiente do desvio padrão da população, para que a estatística do teste seja aproximadamente normal normal, mas em amostra pequena, ela terá caudas mais pesadas que o normal.
Michael Chernick 26/09/12

5
A distribuição t com n-1 graus de liberdade é a distribuição exata para qualquer tamanho de amostra n sob a hipótese nula e em amostras pequenas ela precisa ser usada no lugar da normal, que não a aproxima muito bem. O verdadeiro problema com o tamanho da amostra, como eu e o afirmo, é poder. Se você quiser discutir com o árbitro que 15 é suficiente, você precisa identificar qual a diferença necessária para ser considerada significativa (o delta que mencionei) e, para esse delta, você precisa mostrar que o poder é adequado, digamos 0,80 ou superior .
Michael Chernick 26/09/12

2
@CzarinaFrancoise Sobre n> = 30, consulte stats.stackexchange.com/questions/2541/…
Stéphane Laurent

2
O artigo original do @gung Student (1908!) prova que você pode usar o teste t com pequenas amostras. (Para saber mais sobre isso, por favor consulte o meu comentário estendida à pergunta original.)
whuber

30

Como mencionado nas respostas existentes, o principal problema com um pequeno tamanho de amostra é o baixo poder estatístico. Existem várias regras práticas sobre o que é poder estatístico aceitável. Algumas pessoas dizem que 80% do poder estatístico é razoável, mas, finalmente, mais é melhor. Geralmente, também há uma troca entre o custo de obter mais participantes e o benefício de obter mais poder estatístico.

Você pode avaliar o poder estatístico de no teste usando uma função simples em R power.t.test,.

α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Assim, podemos ver que, se o tamanho do efeito populacional fosse "pequeno" ou "médio", você teria baixo poder estatístico (11% e 44%, respectivamente). No entanto, se o tamanho do efeito for grande na população, você teria o que alguns descreveriam como poder "razoável" (82%).

O site Quick-r fornece mais informações sobre análise de poder usar R .


Boa resposta! Também existe um bom software para calcular o poder estatístico chamado G * Power .
Enrique

7

O teste t de duas amostras é válido se as duas amostras forem amostras aleatórias simples independentes de distribuições normais com a mesma variação e cada tamanho de amostra for pelo menos dois (para que a variação populacional possa ser estimada). irrelevante para a questão da validade do teste. Dependendo do tamanho do efeito que se deseja detectar, um tamanho pequeno de amostra pode ser imprudente, mas um tamanho pequeno de amostra não invalida o teste. Observe também que, para qualquer tamanho de amostra, a distribuição amostral da média é Normal se a distribuição pai for Normal. Obviamente, amostras maiores são sempre melhores porque fornecem estimativas mais precisas dos parâmetros. O Teorema do Limite Central nos diz que as médias das amostras são mais normalmente distribuídas que os valores individuais, mas, como apontado por Casella e Berger, é de utilidade limitada, uma vez que a taxa de abordagem da Normalidade deve ser verificada para qualquer caso específico. Confiar em regras práticas é imprudente. Veja os resultados relatados nos livros de Rand Wilcox.


5

Embora seja verdade que a distribuição t leva em consideração o pequeno tamanho da amostra, eu assumiria que seu árbitro estava pensando na dificuldade de estabelecer que a população é normalmente distribuída, quando a única informação que você tem é uma amostra relativamente pequena? Isso pode não ser um grande problema para uma amostra de tamanho 15, já que, esperamos, a amostra seja grande o suficiente para mostrar alguns sinais de distribuição vagamente normal? Se isso for verdade, espero que a população também esteja em algum lugar perto do normal e, combinada com o Teorema do Limite Central, isso deva fornecer exemplos de meios que sejam bem comportados.

Mas tenho dúvidas quanto às recomendações para o uso de testes t para amostras minúsculas (como o tamanho quatro), a menos que a normalidade da população possa ser estabelecida por alguma informação externa ou entendimento mecânico? Certamente não pode haver informações próximas de uma amostra do tamanho quatro em quantidade suficiente para ter alguma idéia do formato da distribuição da população.


5

Considere o seguinte nas páginas 254-256 de Sauro, J., & Lewis, JR (2016). Quantificando a Experiência do Usuário: Estatísticas Práticas para Pesquisa do Usuário, 2ª Ed. Cambridge, MA: Morgan-Kaufmann (você pode conferir em https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).


VOCÊ PRECISA TESTAR PELO MENOS 30 USUÁRIOS?

POR UM LADO

Provavelmente, a maioria de nós que cursou uma aula de estatística introdutória (ou conhece alguém que cursou essa classe) ouviu a regra geral de que, para estimar ou comparar médias, o tamanho da sua amostra deve ser pelo menos 30. De acordo com o teorema do limite central, À medida que o tamanho da amostra aumenta, a distribuição da média se torna cada vez mais normal, independentemente da normalidade da distribuição subjacente. Alguns estudos de simulação mostraram que, para uma ampla variedade de distribuições (mas não todas - ver Bradley, 1978), a distribuição da média fica quase normal quando n = 30.

Outra consideração é que é um pouco mais simples usar os escores z em vez dos escores t porque os escores z não exigem o uso de graus de liberdade. Conforme mostrado na Tabela 9.1 e na Fig. 9.2, quando você tem cerca de 30 graus de liberdade, o valor de t fica bem próximo do valor de z. Consequentemente, pode haver um sentimento de que você não precisa lidar com pequenas amostras que requerem estatísticas de pequenas amostras (Cohen, 1990). ...

POR OUTRO LADO

Quando o custo de uma amostra é caro, como normalmente ocorre em muitos tipos de pesquisa de usuários (por exemplo, testes de usabilidade moderados), é importante estimar o tamanho da amostra necessário com a maior precisão possível, com o entendimento de que é uma estimativa. A probabilidade de 30 ser exatamente a amostra certa para um determinado conjunto de circunstâncias é muito baixa. Como mostrado em nossos capítulos sobre estimativa de tamanho de amostra, uma abordagem mais apropriada é usar as fórmulas para calcular os níveis de significância de um teste estatístico e, usando a álgebra para resolver n, convertê-los em fórmulas de estimativa de tamanho de amostra. Essas fórmulas fornecem orientações específicas sobre o que você precisa saber ou estimar para uma determinada situação para estimar o tamanho da amostra necessário.

A ideia de que, mesmo com a distribuição t (em oposição à distribuição z), você precisa ter um tamanho de amostra de pelo menos 30 é inconsistente com o histórico do desenvolvimento da distribuição. Em 1899, William S. Gossett, recém-formado no New College, em Oxford, formado em química e matemática, tornou-se um dos primeiros cientistas a ingressar na cervejaria Guinness. “Comparado com os gigantes de sua época, ele publicou muito pouco, mas sua contribuição é de importância crítica. … A natureza do processo de fabricação de cerveja, com sua variabilidade de temperatura e ingredientes, significa que não é possível coletar grandes amostras a longo prazo ”(Cowles, 1989, p. 108-109).

Isso significava que Gossett não poderia usar z-scores em seu trabalho - eles simplesmente não funcionam bem com pequenas amostras. Após analisar as deficiências da distribuição z para testes estatísticos com pequenas amostras, ele realizou os ajustes necessários em função dos graus de liberdade para produzir suas tabelas t, publicadas sob o pseudônimo de "Student" devido às políticas do Guinness que proíbem a publicação. pelos funcionários (Salsburg, 2001). No trabalho que levou à publicação das tabelas, Gossett realizou uma versão inicial das simulações de Monte Carlo (Stigler, 1999). Ele preparou 3000 cartões rotulados com medições físicas feitas em criminosos, embaralhou-os e distribuiu-os em 750 grupos de tamanho 4 - um tamanho de amostra muito menor que 30.

NOSSA RECOMENDAÇÃO

Essa controvérsia é semelhante ao argumento “cinco é suficiente” versus “oito não é suficiente”, abordado no capítulo 6, mas aplicado à pesquisa sumativa e não formativa. Para qualquer pesquisa, o número de usuários a serem testados depende da finalidade do teste e do tipo de dados que você planeja coletar. O “número mágico” 30 tem alguma lógica empírica, mas, em nossa opinião, é muito fraco. Como você pode ver nos inúmeros exemplos deste livro que têm tamanhos de amostra diferentes de 30 (às vezes menos, às vezes mais), não mantemos essa regra de ouro em uma consideração muito alta. Conforme descrito em nosso capítulo sobre tamanho da amostra para pesquisa sumativa, o tamanho apropriado da amostra para um estudo depende do tipo de distribuição, da variabilidade esperada dos dados, dos níveis desejados de confiança e poder,

Como ilustrado na Fig. 9.2, ao usar a distribuição t com amostras muito pequenas (por exemplo, com graus de liberdade inferiores a 5), ​​os valores muito grandes de t compensam tamanhos de amostra pequenos no que diz respeito ao controle de erros do tipo I ( alegar uma diferença é significativo quando realmente não é). Com tamanhos de amostra tão pequenos, seus intervalos de confiança serão muito maiores do que os obtidos com amostras maiores. Mas quando você lida com mais de 5 graus de liberdade, há muito pouca diferença absoluta entre o valor de z e o valor de t. Da perspectiva da abordagem de t a z, há muito pouco ganho após 10 graus de liberdade.

Não é muito mais complicado usar a distribuição t do que a distribuição z (você só precisa ter certeza de usar o valor correto para os graus de liberdade), e o motivo do desenvolvimento da distribuição t era permitir a análise de pequenas amostras. Essa é apenas uma das maneiras menos óbvias pelas quais os profissionais de usabilidade se beneficiam da ciência e prática da fabricação de cerveja. Os historiadores das estatísticas consideram amplamente a publicação de Gossett do teste t de Student como um evento marcante (Box, 1984; Cowles, 1989; Stigler, 1999). Em uma carta a Ronald A. Fisher (um dos pais da estatística moderna) contendo uma cópia inicial das tabelas t, Gossett escreveu: "Você provavelmente é o único homem que jamais as usará" (Box, 1978). Gossett acertou muitas coisas, mas certamente entendeu errado.

REFERÊNCIAS

Box, GEP (1984). A importância da prática no desenvolvimento de estatísticas. Technometrics, 26 (1), 1-8.

Box, JF (1978). Fisher, a vida de um cientista. Nova York, NY: John Wiley.

Bradley, JV (1978). Robustez? Jornal britânico de psicologia matemática e estatística, 31, 144-152.

Cohen, J. (1990). Coisas que aprendi (até agora). American Psychologist, 45 (12), 1304-1312.

Cowles, M. (1989). Estatística em psicologia: uma perspectiva histórica. Hillsdale, NJ: Lawrence Erlbaum.

Salsburg, D. (2001). A senhora que prova o chá: como as estatísticas revolucionaram a ciência no século XX. Nova York, NY: WH Freeman.

Stigler, SM (1999). Estatísticas na tabela: A história dos conceitos e métodos estatísticos. Cambridge, MA: Harvard University Press.


3

Czarina pode achar interessante comparar os resultados de seu teste t paramétrico com os resultados obtidos por um teste t de autoinicialização. O código a seguir para o Stata 13/1 imita um exemplo fictício referente a um teste t de duas amostras com variações desiguais (teste t paramétrico: valor-p = 0,1493; teste t de autoinicialização: valor-p = 0,1553).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

Existem duas maneiras diferentes de justificar o uso do teste t.

  • Seus dados são normalmente distribuídos e você tem pelo menos duas amostras por grupo
  • Você tem grandes tamanhos de amostra em cada grupo

Se um desses casos persistir, o teste t será considerado válido. Portanto, se você estiver disposto a assumir que seus dados são normalmente distribuídos (como são muitos pesquisadores que coletam pequenas amostras), não precisa se preocupar com nada.

No entanto, alguém pode objetar razoavelmente que você está confiando nessa suposição para obter seus resultados, especialmente se se sabe que seus dados estão distorcidos. Então, a questão do tamanho da amostra necessária para inferência válida é muito razoável.

Quanto ao tamanho de amostra necessário, infelizmente não há uma resposta realmente sólida para isso; quanto mais distorcidos seus dados, maior o tamanho da amostra necessário para tornar a aproximação razoável. Geralmente, 15-20 por grupo é considerado razoavelmente grande, mas, como na maioria das regras básicas, existem exemplos contrários: por exemplo, em devoluções de bilhetes de loteria (onde 1 em, digamos, 10.000.000 de observações é um EXTREME EXTERNO), você precisaria literalmente algo em torno de 100.000.000 de observações antes que esses testes fossem apropriados.


1

Concordo em relação à utilidade de um teste t invertido. Eu também recomendaria, como comparação, uma olhada no método bayesiano oferecido por Kruschke em http://www.indiana.edu/~kruschke/BEST/BEST.pdf . Em geral, perguntas de "Quantos assuntos?" não pode ser respondido, a menos que você tenha em mãos uma idéia do tamanho significativo do efeito em termos de solução do problema. Ou seja, e por exemplo, se o teste fosse um estudo hipotético sobre a eficácia de um novo medicamento, o tamanho do efeito poderia ser o tamanho mínimo necessário para justificar o novo medicamento em comparação com o antigo pela Food and Drug Administration dos EUA.

O que é estranho nesta e em muitas outras discussões é a disposição geral de postular que alguns dados têm apenas uma distribuição teórica, como ser gaussiana. Primeiro, não precisamos postar, podemos verificar, mesmo com pequenas amostras. Segundo, por que postular alguma distribuição teórica específica? Por que não considerar os dados como uma distribuição empírica?

Certamente, no caso de amostras pequenas, postular que os dados provêm de alguma distribuição é altamente útil para análise. Mas, para parafrasear Bradley Efron, você acabou de criar uma quantidade infinita de dados. Às vezes, isso pode ser bom se o seu problema for apropriado. Algumas vezes não é.


1

No que diz respeito aos pressupostos, para o caso de duas amostras; é que ambas as amostras são independentes uma da outra e cada amostra consiste em variáveis ​​normais de iid, com as duas amostras tendo a mesma média e uma variação desconhecida comum sob a hipótese nula.

Há também o teste t de Welch, utilizando a aproximação Satterwaite para o erro padrão. Este é um teste t de 2 amostras, assumindo variações desiguais.

Teste t de Welch

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.