Está enraizado no ensino de disciplinas aplicadas, como a medicina, que as medições de quantidades biomédicas na população seguem uma "curva de sino" normal. Uma pesquisa no Google da string "assumimos uma distribuição normal" retorna resultados! Eles parecem "dado o pequeno número de pontos extremos de dados, assumimos uma distribuição normal para as anomalias de temperatura" em um estudo sobre mudanças climáticas; ou "assumimos uma distribuição normal das datas de nascimento dos pintinhos" em um documento possivelmente menos contencioso sobre os pinguins; ou "assumimos uma distribuição normal dos choques de crescimento do PIB" ,, ... e outras coisas).
Recentemente, me vi questionando o tratamento dos dados de contagem como normalmente distribuídos devido à sua natureza estritamente positiva. Obviamente, os dados de contagem são discretos, tornando sua normalidade ainda mais artificial. Mas, mesmo deixando esse último ponto de lado, por que medidas empíricas contínuas, como peso, altura ou concentração de glicose, consideradas prototipicamente "contínuas", devem ser consideradas normais? Eles não podem ter observações realizadas negativas mais do que as contagens!
Entendo que, quando o desvio padrão é substancialmente menor que a média, indicando poucos valores negativos ("verificação de intervalo de 95%"), pode ser uma suposição prática, e os histogramas de frequência podem apoiá-lo, se não for muito inclinado. Mas a pergunta não parecia trivial e uma pesquisa rápida produziu coisas interessantes.
Na Nature , podemos encontrar a seguinte declaração em uma carta de DF Heath : "Desejo ressaltar que, para a análise estatística de certos tipos de dados, a suposição de que os dados são extraídos de uma população normal geralmente está errada e que a alternativa a hipótese de uma distribuição log-normal é melhor. Essa alternativa é amplamente usada por estatísticos, economistas e físicos, mas por algum motivo é frequentemente ignorada por cientistas de outras disciplinas ".
Limpert observa que "o modelo log-normal pode servir como uma aproximação no sentido de que muitos cientistas percebem o normal como uma aproximação válida agora" , observando o baixo poder dos testes de normalidade da qualidade de ajuste e a dificuldade em selecionar a distribuição correta empiricamente ao lidar com pequenas amostras.
Portanto, a pergunta é: "Quando é aceitável assumir uma distribuição normal de uma medida empírica nas ciências aplicadas sem mais evidências de suporte?" E, por que outras alternativas, como o log-normal, não têm, e provavelmente não vão se estabelecer?