Considere o seguinte nas páginas 254-256 de Sauro, J., & Lewis, JR (2016). Quantificando a Experiência do Usuário: Estatísticas Práticas para Pesquisa do Usuário, 2ª Ed. Cambridge, MA: Morgan-Kaufmann (você pode conferir em https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
VOCÊ PRECISA TESTAR PELO MENOS 30 USUÁRIOS?
POR UM LADO
Provavelmente, a maioria de nós que cursou uma aula de estatística introdutória (ou conhece alguém que cursou essa classe) ouviu a regra geral de que, para estimar ou comparar médias, o tamanho da sua amostra deve ser pelo menos 30. De acordo com o teorema do limite central, À medida que o tamanho da amostra aumenta, a distribuição da média se torna cada vez mais normal, independentemente da normalidade da distribuição subjacente. Alguns estudos de simulação mostraram que, para uma ampla variedade de distribuições (mas não todas - ver Bradley, 1978), a distribuição da média fica quase normal quando n = 30.
Outra consideração é que é um pouco mais simples usar os escores z em vez dos escores t porque os escores z não exigem o uso de graus de liberdade. Conforme mostrado na Tabela 9.1 e na Fig. 9.2, quando você tem cerca de 30 graus de liberdade, o valor de t fica bem próximo do valor de z. Consequentemente, pode haver um sentimento de que você não precisa lidar com pequenas amostras que requerem estatísticas de pequenas amostras (Cohen, 1990). ...
POR OUTRO LADO
Quando o custo de uma amostra é caro, como normalmente ocorre em muitos tipos de pesquisa de usuários (por exemplo, testes de usabilidade moderados), é importante estimar o tamanho da amostra necessário com a maior precisão possível, com o entendimento de que é uma estimativa. A probabilidade de 30 ser exatamente a amostra certa para um determinado conjunto de circunstâncias é muito baixa. Como mostrado em nossos capítulos sobre estimativa de tamanho de amostra, uma abordagem mais apropriada é usar as fórmulas para calcular os níveis de significância de um teste estatístico e, usando a álgebra para resolver n, convertê-los em fórmulas de estimativa de tamanho de amostra. Essas fórmulas fornecem orientações específicas sobre o que você precisa saber ou estimar para uma determinada situação para estimar o tamanho da amostra necessário.
A ideia de que, mesmo com a distribuição t (em oposição à distribuição z), você precisa ter um tamanho de amostra de pelo menos 30 é inconsistente com o histórico do desenvolvimento da distribuição. Em 1899, William S. Gossett, recém-formado no New College, em Oxford, formado em química e matemática, tornou-se um dos primeiros cientistas a ingressar na cervejaria Guinness. “Comparado com os gigantes de sua época, ele publicou muito pouco, mas sua contribuição é de importância crítica. … A natureza do processo de fabricação de cerveja, com sua variabilidade de temperatura e ingredientes, significa que não é possível coletar grandes amostras a longo prazo ”(Cowles, 1989, p. 108-109).
Isso significava que Gossett não poderia usar z-scores em seu trabalho - eles simplesmente não funcionam bem com pequenas amostras. Após analisar as deficiências da distribuição z para testes estatísticos com pequenas amostras, ele realizou os ajustes necessários em função dos graus de liberdade para produzir suas tabelas t, publicadas sob o pseudônimo de "Student" devido às políticas do Guinness que proíbem a publicação. pelos funcionários (Salsburg, 2001). No trabalho que levou à publicação das tabelas, Gossett realizou uma versão inicial das simulações de Monte Carlo (Stigler, 1999). Ele preparou 3000 cartões rotulados com medições físicas feitas em criminosos, embaralhou-os e distribuiu-os em 750 grupos de tamanho 4 - um tamanho de amostra muito menor que 30.
NOSSA RECOMENDAÇÃO
Essa controvérsia é semelhante ao argumento “cinco é suficiente” versus “oito não é suficiente”, abordado no capítulo 6, mas aplicado à pesquisa sumativa e não formativa. Para qualquer pesquisa, o número de usuários a serem testados depende da finalidade do teste e do tipo de dados que você planeja coletar. O “número mágico” 30 tem alguma lógica empírica, mas, em nossa opinião, é muito fraco. Como você pode ver nos inúmeros exemplos deste livro que têm tamanhos de amostra diferentes de 30 (às vezes menos, às vezes mais), não mantemos essa regra de ouro em uma consideração muito alta. Conforme descrito em nosso capítulo sobre tamanho da amostra para pesquisa sumativa, o tamanho apropriado da amostra para um estudo depende do tipo de distribuição, da variabilidade esperada dos dados, dos níveis desejados de confiança e poder,
Como ilustrado na Fig. 9.2, ao usar a distribuição t com amostras muito pequenas (por exemplo, com graus de liberdade inferiores a 5), os valores muito grandes de t compensam tamanhos de amostra pequenos no que diz respeito ao controle de erros do tipo I ( alegar uma diferença é significativo quando realmente não é). Com tamanhos de amostra tão pequenos, seus intervalos de confiança serão muito maiores do que os obtidos com amostras maiores. Mas quando você lida com mais de 5 graus de liberdade, há muito pouca diferença absoluta entre o valor de z e o valor de t. Da perspectiva da abordagem de t a z, há muito pouco ganho após 10 graus de liberdade.
Não é muito mais complicado usar a distribuição t do que a distribuição z (você só precisa ter certeza de usar o valor correto para os graus de liberdade), e o motivo do desenvolvimento da distribuição t era permitir a análise de pequenas amostras. Essa é apenas uma das maneiras menos óbvias pelas quais os profissionais de usabilidade se beneficiam da ciência e prática da fabricação de cerveja. Os historiadores das estatísticas consideram amplamente a publicação de Gossett do teste t de Student como um evento marcante (Box, 1984; Cowles, 1989; Stigler, 1999). Em uma carta a Ronald A. Fisher (um dos pais da estatística moderna) contendo uma cópia inicial das tabelas t, Gossett escreveu: "Você provavelmente é o único homem que jamais as usará" (Box, 1978). Gossett acertou muitas coisas, mas certamente entendeu errado.
REFERÊNCIAS
Box, GEP (1984). A importância da prática no desenvolvimento de estatísticas. Technometrics, 26 (1), 1-8.
Box, JF (1978). Fisher, a vida de um cientista. Nova York, NY: John Wiley.
Bradley, JV (1978). Robustez? Jornal britânico de psicologia matemática e estatística, 31, 144-152.
Cohen, J. (1990). Coisas que aprendi (até agora). American Psychologist, 45 (12), 1304-1312.
Cowles, M. (1989). Estatística em psicologia: uma perspectiva histórica. Hillsdale, NJ: Lawrence Erlbaum.
Salsburg, D. (2001). A senhora que prova o chá: como as estatísticas revolucionaram a ciência no século XX. Nova York, NY: WH Freeman.
Stigler, SM (1999). Estatísticas na tabela: A história dos conceitos e métodos estatísticos. Cambridge, MA: Harvard University Press.