Por que é frequentemente assumida a distribuição gaussiana?

Citando um artigo da Wikipedia sobre estimativa de parâmetros para um classificador ingênuo de Bayes : "uma suposição típica é que os valores contínuos associados a cada classe sejam distribuídos de acordo com uma distribuição gaussiana".

Entendo que uma distribuição gaussiana é conveniente por razões analíticas. No entanto, existe alguma outra razão do mundo real para fazer essa suposição? E se a população consistir em duas subpopulações (pessoas inteligentes / burras, maçãs grandes / pequenas)?

normal-distribution

— lmsasu
fonte

Talvez por causa do teorema do limite central, as distribuições gaussianas se ajustem a muitas, embora de maneira alguma todas, medidas de fenômenos físicos? Com sub-populações, pode-se obter mistura distribuição gaussiana.

— Dilip Sarwate

A mesma seção (suponho que você esteja analisando o artigo Naive Bayes) aponta que o binning é provavelmente uma idéia melhor se você não conhece a distribuição. Alguém provavelmente deve editar o artigo da wikipedia para deixar mais claro que só se deve assumir gaussiano se ele puder argumentar por que é gaussiano (por exemplo, plote os dados ou siga o padrão aditivo do CLT).

— Rm999

relevante: mathdl.maa.org/images/upload_library/22/Allendoerfer/…

— Elvis

Respostas:

Pelo menos para mim, a suposição de normalidade surge de duas razões (muito poderosas):

O Teorema do Limite Central.
A distribuição gaussiana é uma distribuição de entropia máxima (com relação à versão contínua da entropia de Shannon).

Eu acho que você está ciente do primeiro ponto: se sua amostra é a soma de muitos processos, desde que algumas condições moderadas sejam satisfeitas, a distribuição é praticamente gaussiana (há generalizações do CLT onde você realmente não deve assumir que os rvs da soma são distribuídos de forma idêntica, veja, por exemplo, o Lyapunov CLT).

O segundo ponto é o que, para algumas pessoas (especialmente os físicos), faz mais sentido: dado o primeiro e o segundo momento de uma distribuição, a distribuição que menos informação assume (ou seja, a mais conservadora) em relação à medida contínua de entropia de Shannon (que é um tanto arbitrário no caso contínuo, mas, pelo menos para mim, totalmente objetivo no caso discreto, mas essa é outra história), é a distribuição gaussiana. Essa é uma forma do chamado "princípio da entropia máxima", que não é tão difundido porque o uso real da forma da entropia é um tanto arbitrário (consulte este artigo da Wikipedia para obter mais informações sobre essa medida ).

$\vec{\mu}$ $\mathbf{\Sigma}$ ), pode mostrar-se um gaussiano multivariado.

PD: Devo acrescentar ao princípio da entropia máxima que, de acordo com este artigo , se você conhece o intervalo de variação de sua variável, deve fazer ajustes na distribuição que obtém pelo princípio da entropia máxima.

— Néstor
fonte

Minha resposta concorda com o primeiro respondedor. O teorema do limite central informa que, se sua estatística for uma soma ou média, será aproximadamente normal sob certas condições técnicas, independentemente da distribuição das amostras individuais. Mas você está certo de que, às vezes, as pessoas levam isso muito longe só porque parece conveniente. Se sua estatística for uma proporção e o denominador puder ser zero ou próximo dela, a proporção será muito pesada para o normal. Gosset descobriu que, mesmo quando você coleta amostras de uma distribuição normal, uma média normalizada em que o desvio padrão da amostra é usado para a constante de normalização, a distribuição é a distribuição t com n-1 graus de liberdade quando n é o tamanho da amostra. Em suas experiências de campo na Cervejaria Guiness, ele tem tamanhos de amostra que podem estar na faixa de 5 a 10. Nesses casos, a distribuição t é semelhante à distribuição normal padrão, pois é simétrica em torno de 0, mas possui caudas muito mais pesadas. Observe que a distribuição t converge para o normal padrão à medida que n aumenta. Em muitos casos, a distribuição que você tem pode ser bimodal, pois é uma mistura de duas populações. Algumas vezes essas distribuições podem ser ajustadas como uma mistura de distribuições normais. Mas eles certamente não se parecem com uma distribuição normal. Se você olhar para um livro básico de estatística, encontrará muitas distribuições paramétricas contínuas e discretas que frequentemente surgem em problemas de inferência. Para dados discretos, temos o binômio binomial, Poisson, geométrico, hipergeométrico e negativo, para citar alguns. Exemplos contínuos incluem o quadrado do chi, lognormal, Cauchy, exponencial negativo, Weibull e Gumbel.

— Michael R. Chernick
fonte

O uso do CLT para justificar o uso da distribuição gaussiana é uma falácia comum, porque o CLT é aplicado à média da amostra, não a observações individuais. Portanto, aumentar o tamanho da amostra não significa que a amostra esteja mais próxima da normalidade.

A distribuição gaussiana é comumente usada porque:

A estimativa da máxima probabilidade é simples.
A inferência bayesiana é simples (usando anteriores conjugados ou anteriores do tipo Jeffreys).
É implementado na maioria dos pacotes numéricos.
Há muita teoria sobre essa distribuição em termos de teste de hipóteses.
Falta de conhecimento sobre outras opções (mais flexíveis). ...

Obviamente, a melhor opção é usar uma distribuição que leve em consideração as características do seu contexto, mas isso pode ser um desafio. No entanto, é algo que as pessoas devem fazer

"Tudo deve ser feito o mais simples possível, mas não mais simples." (Albert Einstein)

Eu espero que isso ajude.

Muitas felicidades.

— Tony
fonte

Por que o voto negativo? que contra-argumento é essa explicação?

— Lsasu

A crença de que "o uso do CLT para justificar o uso da distribuição gaussiana é uma falácia comum porque o CLT é aplicado à média da amostra" é em si uma falácia. Por exemplo, os elétrons em um condutor estão se movendo aleatoriamente. A pequena carga em cada elétron contribui para uma tensão de ruído líquido (chamada ruído térmico) que pode ser medida através dos terminais do condutor. Cada contribuição é pequena, existem muitos elétrons e, por meio do CLT, o ruído é modelado como um processo aleatório gaussiano. Este modelo foi validado cruzadamente em vários estudos experimentais.

— precisa saber é o seguinte

Este primeiro parágrafo é confuso e parece fora de tópico. Ao aplicar o CLT, costumamos dizer que uma distribuição é gaussiana porque cada observação individual é a soma / média de muitos processos. Se o primeiro parágrafo fosse removido, acho que seria uma boa resposta.

— Rm999

@ rm999 "Se o primeiro parágrafo for removido, acho que seria uma boa resposta". Na verdade, o primeiro parágrafo é o cerne da resposta, já que o restante apenas aponta como o modelo gaussiano é útil analiticamente - o que o OP já entende - e não responde à pergunta.

— precisa saber é o seguinte

@Dilip: (+1) O núcleo de uma resposta muito boa está presente em seu primeiro comentário. Considere expandir nele em uma postagem separada.

— cardeal