Um tamanho pequeno de amostra pode causar erro do tipo 1?


21

Aprendi que um tamanho pequeno de amostra pode levar a energia insuficiente e a erros do tipo 2. No entanto, tenho a sensação de que pequenas amostras podem geralmente não ser confiáveis ​​e podem levar a qualquer tipo de resultado por acaso. Isso é verdade?


Tenho aversão a notações matemáticas desnecessárias, por isso editei o título. Você pode verificar se não mudei o significado alterando-o?
precisa saber é o seguinte

1
Não deixe de falar também sobre testes de hipóteses (testes de Neyman-Pearson) e não sobre testes de significância (testes de Fisher). Essas abordagens são comumente misturadas, mesmo que não haja noção de erro na segunda, e os usos adequados devem ser diferentes porque levam a diferentes tipos de conclusão.
Seb

Se você estiver usando um teste assintótico, sim, é possível. Caso contrário, não - o teste é definido para controlar a taxa de erro do tipo 1 (por exemplo, ). α
Macro

Mas não é verdade, se você está jogando moedas duas vezes, é mais provável que você resulte em um resultado distorcido (2 lados iguais (100%)) do que quando você está jogando 100 vezes, o que provavelmente resultará em aproximadamente 1 / 2, 1/2. Isso não indica que, quanto menor o tamanho, maior a probabilidade de ocorrer um erro do tipo I?

Respostas:


27

Como princípio geral, o tamanho pequeno da amostra não aumentará a taxa de erro do Tipo I pelo simples motivo de o teste ser organizado para controlar a taxa do Tipo I. (Existem pequenas exceções técnicas associadas a resultados discretos, que podem fazer com que a taxa nominal do Tipo I não seja atingida exatamente, especialmente em amostras pequenas.)

Há um princípio importante aqui: se o seu teste tiver tamanho aceitável (= taxa nominal do Tipo I) e potência aceitável para o efeito que você procura, mesmo que o tamanho da amostra seja pequeno, tudo bem.

O perigo é que, se soubermos pouco sobre a situação - talvez esses sejam todos os dados que temos -, talvez possamos nos preocupar com erros do "Tipo III": ou seja, erros de especificação do modelo. Pode ser difícil verificar com pequenos conjuntos de amostras.

Como exemplo prático da interação de idéias, vou compartilhar uma história. Há muito tempo, pediram-me para recomendar um tamanho de amostra para confirmar uma limpeza ambiental. Isso foi durante a fase de pré-limpeza antes de termos dados. Meu plano pedia a análise de mais ou menos 1000 amostras que seriam obtidas durante a limpeza (para estabelecer que solo suficiente havia sido removido em cada local) para avaliar a média e a variação pós-limpeza da concentração de contaminantes. Então (para simplificar bastante), eu disse que usaríamos uma fórmula de manual - com base na potência e no tamanho de teste especificados - para determinar o número de amostras de confirmação independentes que seriam usadas para provar que a limpeza foi bem-sucedida.

O que tornou isso memorável foi que, após a limpeza, a fórmula dizia usar apenas 3 amostras. De repente, minha recomendação não parecia muito credível!

O motivo de precisar de apenas 3 amostras é que a limpeza foi agressiva e funcionou bem. Reduziu as concentrações médias de contaminantes para cerca de 100, aproximadamente 100 ppm, consistentemente abaixo da meta de 500 ppm.

No final, essa abordagem funcionou porque obtivemos as 1000 amostras anteriores (embora com menor qualidade analítica: elas apresentavam maior erro de medição) para estabelecer que as suposições estatísticas feitas eram de fato boas para este site. É assim que o potencial de erro do tipo III foi tratado.

Mais uma reviravolta para sua consideração: sabendo que a agência reguladora nunca aprovaria o uso de apenas 3 amostras, eu recomendei a obtenção de 5 medições. Estes deveriam ser feitos de 25 amostras aleatórias de todo o site, compostas em grupos de 5. Estatisticamente, haveria apenas 5 números no teste final de hipóteses, mas alcançamos maior poder para detectar um "hot spot" isolado, tomando 25 amostras. Isso destaca a importante relação entre quantos números são usados ​​no teste e como eles foram obtidos. Há mais na tomada de decisão estatística do que apenas algoritmos com números!

Para meu alívio eterno, os cinco valores compostos confirmaram que o objetivo de limpeza foi atingido.


1
(+1) uma ótima história sobre limpeza agressiva e erro tipo III , seria bom se isso também fosse relevante para séries temporais econômicas. Para modelos determinísticos ou modelos com baixa taxa de ruído, o tamanho pequeno da amostra IMHO não será o maior problema (em comparação com um conjunto enorme de dados de amostra grandes independentes provavelmente muito ruidosos, até mesmo os principais componentes são difíceis com esses).
Dmitrij Celov

1
+1, para aqueles que estão interessados em mais compreender as "exceções técnicos associados com resultados discretos" mencionados no primeiro parágrafo, discuto aqueles aqui: Comparando e contrastando p-valores, os níveis de significância e erro de tipo I .
gung - Restabelece Monica

1
+1, um excelente exemplo de por que você não pode fazer uma punhalada selvagem em um tamanho de amostra útil sem informações importantes.
Freya Harrison

0

Outra consequência de uma pequena amostra é o aumento do erro do tipo 2.

Nunnally demonstrou no artigo "O lugar da estatística na psicologia", 1960, que pequenas amostras geralmente falham em rejeitar uma hipótese nula pontual. Essas hipóteses são hipóteses com alguns parâmetros iguais a zero e são conhecidas por serem falsas na experiência considerada.

Pelo contrário, amostras muito grandes aumentam o erro do tipo 1 porque o valor p depende do tamanho da amostra, mas o nível de significância alfa é fixo. Um teste nessa amostra sempre rejeitará a hipótese nula. Leia "A insignificância do teste de significância estatística", de Johnson e Douglas (1999), para ter uma visão geral do problema.

Esta não é uma resposta direta à pergunta, mas essas considerações são complementares.


+1 para chamar a questão de amostras grandes e erro tipo I
Josh Hemann 5/05

6
-1, o comentário de que "amostras muito grandes aumentam o erro do tipo 1" está incorreto. Você pode estar confundindo significância estatística e significância prática , pois pode existir uma situação em que o efeito verdadeiro não é exatamente 0, mas tão pequeno que é irrelevante, e consideraríamos o nulo 'verdadeiro' para fins práticos . Nesse caso, o nulo seria rejeitado mais de (por exemplo) 5% do tempo, e mais frequentemente com N. crescente. No entanto, estritamente falando, a hipótese nula de que o efeito verdadeiro é exatamente 0 é, por estipulação, falsa. Portanto, essas rejeições não são realmente erros do tipo I.
gung - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.