Quando é correto escrever "assumimos uma distribuição normal" de uma medida empírica?

Está enraizado no ensino de disciplinas aplicadas, como a medicina, que as medições de quantidades biomédicas na população seguem uma "curva de sino" normal. Uma pesquisa no Google da string "assumimos uma distribuição normal" retorna resultados! Eles parecem "dado o pequeno número de pontos extremos de dados, assumimos uma distribuição normal para as anomalias de temperatura" em um estudo sobre mudanças climáticas; ou "assumimos uma distribuição normal das datas de nascimento dos pintinhos" em um documento possivelmente menos contencioso sobre os pinguins; ou "assumimos uma distribuição normal dos choques de crescimento do PIB" , $\small 23,900$ , ... e outras coisas).

Recentemente, me vi questionando o tratamento dos dados de contagem como normalmente distribuídos devido à sua natureza estritamente positiva. Obviamente, os dados de contagem são discretos, tornando sua normalidade ainda mais artificial. Mas, mesmo deixando esse último ponto de lado, por que medidas empíricas contínuas, como peso, altura ou concentração de glicose, consideradas prototipicamente "contínuas", devem ser consideradas normais? Eles não podem ter observações realizadas negativas mais do que as contagens!

Entendo que, quando o desvio padrão é substancialmente menor que a média, indicando poucos valores negativos ("verificação de intervalo de 95%"), pode ser uma suposição prática, e os histogramas de frequência podem apoiá-lo, se não for muito inclinado. Mas a pergunta não parecia trivial e uma pesquisa rápida produziu coisas interessantes.

Na Nature , podemos encontrar a seguinte declaração em uma carta de DF Heath : "Desejo ressaltar que, para a análise estatística de certos tipos de dados, a suposição de que os dados são extraídos de uma população normal geralmente está errada e que a alternativa a hipótese de uma distribuição log-normal é melhor. Essa alternativa é amplamente usada por estatísticos, economistas e físicos, mas por algum motivo é frequentemente ignorada por cientistas de outras disciplinas ".

Limpert observa que "o modelo log-normal pode servir como uma aproximação no sentido de que muitos cientistas percebem o normal como uma aproximação válida agora" , observando o baixo poder dos testes de normalidade da qualidade de ajuste e a dificuldade em selecionar a distribuição correta empiricamente ao lidar com pequenas amostras.

Portanto, a pergunta é: "Quando é aceitável assumir uma distribuição normal de uma medida empírica nas ciências aplicadas sem mais evidências de suporte?" E, por que outras alternativas, como o log-normal, não têm, e provavelmente não vão se estabelecer?

— Antoni Parellada
fonte

A resposta dependeria do tipo de coisa que você está fazendo e da sensibilidade a possíveis desvios da normalidade (ou seja, se você estiver testando a igualdade de variações usando um teste F da razão, é melhor ter distribuições que sejam muito perto do normal ... mas se você estivesse construindo um intervalo t para a diferença de médias, com amostras grandes, talvez não fosse necessário tê-las muito perto da normalidade). ... e na sua tolerância (ou na do seu público) para o tipo de impacto que isso teria na inferência que você está fazendo.

— Glen_b -Reinstala Monica 13/03

Acho sua pergunta realmente interessante. Vamos ter algumas coisas em consideração:

Dizer que uma variável observada é contínua na vida real sempre será meio errado, porque é muito difícil medir realmente continuamente.
Agora adicione as propriedades de uma variável aleatória normal : range , distribuição simétrica (média = modo = mediana), a função de densidade de probabilidade tem Os pontos de inflexão em e . $N(\mu, \sigma^2)$ $(-\infty; +\infty)$ $f_X(x)$ $x = \mu - \sigma$ $x = \mu + \sigma$
Dizer que uma variável aleatória segue uma distribuição Log-Normal implica que a variável segue uma distribuição normal. $X$ $Y=log(X)$

Com isso dito, dizer que qualquer variável observada segue uma distribuição normal ou Log-Normal parece meio doido. Na prática, o que é feito é que você mede os desvios das frequências observadas em relação às freqüências esperadas, se essa variável vier de uma população normal (ou qualquer outra distribuição). Se você pode dizer que esses desvios são apenas aleatórios, porque você está amostrando, pode dizer algo como se não houvesse evidência suficiente para rejeitar a hipótese nula de que essa variável é proveniente de uma população normal , que é traduzida em trabalharemos como se ( assumindo que) a variável segue uma distribuição normal .

Respondendo à sua primeira pergunta, não acho que haja alguém tão ousado em dizer que se supõe que uma variável seja normalmente distribuída sem mais evidências . Para dizer algo assim, você precisa de pelo menos um gráfico de qq, um histograma, um teste de adequação ou uma combinação deles.

Para responder à segunda pergunta, o interesse particular na distribuição normal é que muitos dos testes clássicos são baseados em uma suposição de normalidade da variável, como o teste t ou o para a variância. Portanto, a normalidade simplifica o trabalho, só isso. $\chi^2$

— toneloy
fonte

Obrigado pela sua resposta, que aborda muitos pontos-chave. No entanto, costumo pensar que as coisas no "mundo real" das ciências aplicadas são menos estruturadas e uma tangente direta é frequentemente usada para assumir a normalidade.

— Antoni Parellada

Algo que não mencionei é a outra parte da história, se a distribuição normal: é a distribuição limite da padronização de uma soma de variáveis aleatórias iid, como é afirmado no teorema do limite central. Se você pode dizer que sua variável é uma soma de muitas variáveis aleatórias iid, como no raciocínio por trás do movimento browniano, então você pode dizer que é uma variável aleatória normal. Esse é o único atalho válido que eu conheço. Posso incluir isso na resposta, se você quiser.

— toneloy