Como princípio geral, o tamanho pequeno da amostra não aumentará a taxa de erro do Tipo I pelo simples motivo de o teste ser organizado para controlar a taxa do Tipo I. (Existem pequenas exceções técnicas associadas a resultados discretos, que podem fazer com que a taxa nominal do Tipo I não seja atingida exatamente, especialmente em amostras pequenas.)
Há um princípio importante aqui: se o seu teste tiver tamanho aceitável (= taxa nominal do Tipo I) e potência aceitável para o efeito que você procura, mesmo que o tamanho da amostra seja pequeno, tudo bem.
O perigo é que, se soubermos pouco sobre a situação - talvez esses sejam todos os dados que temos -, talvez possamos nos preocupar com erros do "Tipo III": ou seja, erros de especificação do modelo. Pode ser difícil verificar com pequenos conjuntos de amostras.
Como exemplo prático da interação de idéias, vou compartilhar uma história. Há muito tempo, pediram-me para recomendar um tamanho de amostra para confirmar uma limpeza ambiental. Isso foi durante a fase de pré-limpeza antes de termos dados. Meu plano pedia a análise de mais ou menos 1000 amostras que seriam obtidas durante a limpeza (para estabelecer que solo suficiente havia sido removido em cada local) para avaliar a média e a variação pós-limpeza da concentração de contaminantes. Então (para simplificar bastante), eu disse que usaríamos uma fórmula de manual - com base na potência e no tamanho de teste especificados - para determinar o número de amostras de confirmação independentes que seriam usadas para provar que a limpeza foi bem-sucedida.
O que tornou isso memorável foi que, após a limpeza, a fórmula dizia usar apenas 3 amostras. De repente, minha recomendação não parecia muito credível!
O motivo de precisar de apenas 3 amostras é que a limpeza foi agressiva e funcionou bem. Reduziu as concentrações médias de contaminantes para cerca de 100, aproximadamente 100 ppm, consistentemente abaixo da meta de 500 ppm.
No final, essa abordagem funcionou porque obtivemos as 1000 amostras anteriores (embora com menor qualidade analítica: elas apresentavam maior erro de medição) para estabelecer que as suposições estatísticas feitas eram de fato boas para este site. É assim que o potencial de erro do tipo III foi tratado.
Mais uma reviravolta para sua consideração: sabendo que a agência reguladora nunca aprovaria o uso de apenas 3 amostras, eu recomendei a obtenção de 5 medições. Estes deveriam ser feitos de 25 amostras aleatórias de todo o site, compostas em grupos de 5. Estatisticamente, haveria apenas 5 números no teste final de hipóteses, mas alcançamos maior poder para detectar um "hot spot" isolado, tomando 25 amostras. Isso destaca a importante relação entre quantos números são usados no teste e como eles foram obtidos. Há mais na tomada de decisão estatística do que apenas algoritmos com números!
Para meu alívio eterno, os cinco valores compostos confirmaram que o objetivo de limpeza foi atingido.