Existe uma explicação para o motivo de existirem tantos fenômenos naturais que seguem a distribuição normal?


29

Penso que este é um tópico fascinante e não o compreendo completamente. Que lei da física faz para que tantos fenômenos naturais tenham distribuição normal? Parece mais intuitivo que eles teriam distribuição uniforme.

É tão difícil para mim entender isso e sinto que estou perdendo algumas informações. Alguém pode me ajudar com uma boa explicação ou me vincular a um livro / vídeo / artigo?



7
Você tem um motivo sólido para pensar que sua premissa é realmente o caso?
Glen_b -Reinstala Monica 30/03

4
Na verdade, a distribuição normal pode não ser a distribuição "dominante" na natureza. Existem muitos fenômenos e comportamentos extremamente valiosos, de cauda pesada ou que descrevem funções da lei do poder. Gabaix documenta muitas das variantes econômicas e financeiras dessa classe distributiva em seu artigo Power Laws in Economics: An Introduction , aqui não publicado ... pages.stern.nyu.edu/~xgabaix/papers/pl-jep.pdf Shalizi, et al. discuta sua estimativa empírica neste artigo Distribuições de leis de poder em dados empíricos , desatadas aqui ... santafe.edu/media/workingpapers/07-12-049.pdf
Mike Hunter

Quem lhe disse que a distribuição normal era dominante?
precisa saber é o seguinte

1
@DJohnson +1 nos links, mas é importante ressaltar que uma das principais conclusões de Clauset et al. O papel é que não muitas distribuições empíricas da lei do poder que são fortemente apoiadas! Citando as conclusões, "Em apenas um caso - a distribuição das frequências de ocorrência de palavras no texto em inglês - a lei do poder parece ser realmente convincente no sentido de que é um excelente ajuste aos dados e nenhuma das alternativas possui nenhum peso."
Sycorax diz Restabelecer Monica

Respostas:


31

Deixe-me começar negando a premissa. Robert Geary provavelmente não exagerou o caso quando disse (em 1947) " ... normalidade é um mito; nunca houve e nunca haverá uma distribuição normal. " -
a distribuição normal é um modelo *, um aproximação que às vezes é mais ou menos útil.

* (sobre o qual, veja George Box , embora eu prefira a versão no meu perfil).

O fato de alguns fenômenos serem aproximadamente normais pode não ser uma grande surpresa, uma vez que somas de efeitos independentes [ou mesmo efeitos não muito correlacionados] deveriam, se houver muitos deles e nenhum tiver uma variação substancial em comparação com a variação do A soma do resto que podemos ver a distribuição tende a parecer mais normal.

O teorema do limite central (que é sobre a convergência para uma distribuição normal de uma amostra padronizada média conforme vai para o infinito sob algumas condições amenas) pelo menos sugere que podemos ver uma tendência para essa normalidade com tamanhos de amostra suficientemente grandes, mas finitos.n

Obviamente, se os meios padronizados forem aproximadamente normais, somas padronizadas serão; esse é o motivo do raciocínio "soma de muitos efeitos". Portanto, se houver muitas pequenas contribuições para a variação e elas não estiverem altamente correlacionadas, você poderá vê-la.

O teorema de Berry-Esseen nos dá uma afirmação sobre ele (convergência para distribuições normais) que realmente acontece com médias de amostra padronizadas para dados iid (sob condições um pouco mais rigorosas do que para o CLT, pois exige que o terceiro momento absoluto seja finito), como além de nos contar sobre a rapidez com que isso acontece. Versões subseqüentes do teorema lidam com componentes distribuídos de maneira não idêntica na soma , embora os limites superiores do desvio da normalidade sejam menos restritos.

Menos formalmente, o comportamento de convoluções com distribuições razoavelmente boas nos dá motivos adicionais (embora intimamente relacionados) para suspeitar que possa tender a ser uma aproximação justa em amostras finitas em muitos casos. A convolução atua como uma espécie de operador de "difusão" com o qual as pessoas que usam a estimativa de densidade de kernel em vários kernels estarão familiarizadas; depois de padronizar o resultado (para que a variação permaneça constante cada vez que você faz uma operação assim), há uma progressão clara em direção a formas cada vez mais simétricas de colinas à medida que você suaviza repetidamente (e não importa muito se você mudar o kernel toda vez).

Terry Tao faz uma boa discussão sobre versões do teorema do limite central e do teorema de Berry-Esseen aqui , e ao longo do caminho menciona uma abordagem para uma versão não independente do Berry-Esseen.

Portanto, há pelo menos uma classe de situações em que podemos esperar vê-lo, e razões formais para pensar que realmente tenderão a acontecer nessas situações. No entanto, na melhor das hipóteses, qualquer sentido de que o resultado de "somas de muitos efeitos" seja normal é uma aproximação. Em muitos casos, é uma aproximação bastante razoável (e, em casos adicionais, embora a aproximação da distribuição não seja próxima, alguns procedimentos que assumem a normalidade não são especialmente sensíveis à distribuição dos valores individuais, pelo menos em amostras grandes).

Existem muitas outras circunstâncias em que os efeitos não "adicionam" e podemos esperar que outras coisas aconteçam; por exemplo, em muitos dados financeiros, os efeitos tendem a ser multiplicativos (os efeitos movimentam valores em termos percentuais, como juros, inflação e taxas de câmbio, por exemplo). Lá, não esperamos normalidade, mas às vezes podemos observar uma aproximação aproximada da normalidade na escala logarítmica. Em outras situações, nenhum dos dois pode ser apropriado, mesmo em um sentido aproximado. Por exemplo, os tempos entre eventos geralmente não serão bem aproximados pela normalidade ou normalidade dos logs; não há "somas" nem "produtos" de efeitos a serem discutidos aqui. Existem inúmeros outros fenômenos nos quais podemos argumentar sobre um tipo particular de "lei" em circunstâncias particulares.


12
+1. Seu argumento começa a sugerir - de maneira bastante plausível, na minha opinião - que possa haver uma resposta psicológica para a pergunta, como pensamento de grupo: quando todo mundo em seu campo vê distribuições normais, quem é você para dizer o contrário? Isso vale especialmente para os campos de investigação em que os procedimentos estatísticos são vistos como ferramentas para pedestres, talvez necessárias para santificar um trabalho para publicação, mas de outro modo com pouco valor ou interesse inerente.
whuber

2
Para dar um exemplo específico, quando Quetelet inventou o IMC (Índice de Massa Corporal), ele o fez explicitamente de uma maneira que produzia uma quantidade normalmente distribuída. Falamos sobre isso aqui: stats.stackexchange.com/questions/64171/…
Matt Krause

Parece-me que todo mundo está tentando contornar esta questão, em vez de respondê-la.
Digio

Geary era estatístico, então não é de admirar que ele pensasse que a normalidade é um mito. Se ele fosse físico, veria de maneira diferente.
Aksakal

Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
Glen_b Restabelecer Monica

20

Há um famoso ditado de Gabriel Lippmann (físico, ganhador do Nobel), como disse Poincaré:

[A distribuição normal] não pode ser obtida com deduções rigorosas. Várias de suas supostas provas são terríveis [...]. No entanto, todo mundo acredita nisso, como o Sr. Lippmann me disse um dia, porque os experimentadores imaginam que seja um teorema matemático, enquanto os matemáticos imaginam que seja um fato experimental.

- Henri Poincaré, Le calcul des Probabilités . 1896

[Cette loi] ne s'obtient pas par des deduction rigoureuses; além de uma demonstração de voulu no donner est grossière [...]. Sobre o mundo e os argumentos correspondentes, eu desabilito o meu M. Lippmann, os especialistas em carros que imaginam o que é um dos temas de matemática, e os que têm mais experiência positiva.

Parece que não temos essa citação no nosso tópico Lista de citações estatísticas, por isso achei que seria bom publicá-la aqui.


Um voto negativo? Alguém aqui odiando secretamente Poincaré?
Ameba diz Reinstate Monica

Meu conhecimento de física termina com o que aprendi no ensino médio, mas Gauss não estudou originalmente a distribuição no contexto das equações normais da física? Foi minha Wikipedia-dado impressão de que erros de Gauss cair naturalmente fora de algum clássico modelo de física
shadowtalker

2
Deveríamos honrar Lippmann mais como o autor deste bon mot . Gabriel Lippmann foi vencedor do Prêmio Nobel de Física. (M. aqui significa apenas Monsieur, naturellement.)
Nick Cox

3
@ssdecontrol Pelo que me lembro, Gauss estava interessado em erros normais de observação , particularmente em astronomia e geodésia, mas inteligente o suficiente para saber que a suposição era questionável. (Foi também, por exemplo, usando o desvio absoluto médio desde a mediana como uma medida de resistência de propagação em 1816.)
Nick Cox

É justo, @ Nick. Eu editei para esclarecer.
Ameba diz Reinstate Monica

7

Que lei da física faz para que tantos fenômenos naturais tenham distribuição normal? Parece mais intuitivo que eles teriam distribuição uniforme.

A distribuição normal é um lugar comum nas ciências naturais. A explicação usual é a razão pela qual isso ocorre nos erros de medição, através de alguma forma de raciocínio de números grandes ou do teorema do limite central (CLT), que geralmente é assim: "uma vez que os resultados do experimento são impactados por um número infinitamente grande de distúrbios provenientes de fontes não relacionadas. sugere que os erros normalmente seriam distribuídos ". Por exemplo, aqui está um trecho de Métodos Estatísticos em Análise de Dados de WJ Metzger:

A maior parte do que medimos é de fato a soma de muitos RVs. Por exemplo, você mede o comprimento de uma tabela com uma régua. O comprimento que você mede depende de muitos efeitos pequenos: paralaxe ótica, calibração da régua, temperatura, mão trêmula, etc. Um medidor digital apresenta ruído eletrônico em vários locais do circuito. Assim, o que você mede não é apenas o que você deseja medir, mas acrescentou a ele um grande número de (espero) pequenas contribuições. Se esse número de pequenas contribuições for grande, o CLT nos diz que sua soma total é distribuída gaussiana. Esse é geralmente o caso e é o motivo pelo qual as funções de resolução geralmente são gaussianas.

No entanto, como você deve saber, isso não significa que toda distribuição será normal, é claro. Por exemplo, a distribuição de Poisson é tão comum na física quando se lida com processos de contagem. Na espectroscopia, a distribuição de Cauchy (aka Breit Wigner) é usada para descrever a forma dos espectros de radiação e assim por diante.

Percebi isso depois de escrever: todas as três distribuições mencionadas até agora (Gaussian, Poisson, Cauchy) são distribuições estáveis , com Poisson sendo discretamente estável . Agora que pensei sobre isso, parece uma qualidade importante de uma distribuição que sobreviverá às agregações: se você adicionar vários números de Poisson, a soma será um Poisson. Isso pode "explicar" (em certo sentido) por que é tão onipresente.

Nas ciências não naturais, você deve ter muito cuidado ao aplicar a distribuição normal (ou qualquer outra) por várias razões. Particularmente as correlações e dependências são um problema, pois podem quebrar as suposições do CLT. Por exemplo, no setor financeiro, é sabido que muitas séries parecem normais, mas têm muito mais peso. caudas , o que é um grande problema no gerenciamento de riscos.

Finalmente, existem razões mais sólidas nas ciências naturais para ter uma distribuição normal do que um tipo de raciocínio "acenando com a mão" que citei anteriormente. Considere, movimento browniano. Se os choques são verdadeiramente independentes e infinitesimais, inevitavelmente a distribuição de um caminho observável terá distribuição normal devido à CLT, veja, por exemplo, a Eq. (10) na famosa obra de Einstein " INVESTIGAÇÕES SOBRE A TEORIA DO MOVIMENTO BROWNIANO ". Ele nem se deu ao trabalho de chamá-lo pelo nome de hoje "gaussiano" ou "normal".

ΔxΔpΔxΔp .

Portanto, não se surpreenda ao obter reações muito diferentes ao uso da distribuição gaussiana de pesquisadores de diferentes áreas. Em alguns campos, como a física, espera-se que certos fenômenos estejam ligados naturalmente à distribuição gaussiana, com base em uma teoria muito sólida, apoiada por uma quantidade enorme de observações. Em outros campos, a distribuição Normal é usada por sua conveniência técnica, propriedades matemáticas práticas ou outros motivos questionáveis.


1
+1. A cotação é razoável, no entanto, pode-se notar que o comprimento medido não pode ser negativo (ou seja, é limitado) e, portanto, não pode realmente seguir uma distribuição normal. É sempre uma aproximação.
Ameba diz Reinstate Monica

Ciências não naturais? Você quer dizer as experiências indecorosas do Dr. Frankenstein? ;-)
Sycorax diz Restabelecer Monica

1
@ user777, é prêmio Nobel Landau de piada : 'ciências podem ser divididos em três tipos: naturais, artificiais e antinatural'
Aksakal

@ Akksakal: Eu acho que este link em particular está errado; Landau disse que as ciências são divididas em "естественные, неестественные e противоестественные" (em vez de "сверхъестественные"). Mas não faço ideia de como traduzi-lo.
Ameba diz Reinstate Monica

@amoeba, estou traduzindo "неестественные" como "não natural". "сверхъестественные" é "sobrenatural", eu pensa. Talvez os russos possam me corrigir.
Aksakal

2

há muitas explicações complicadas aqui ...

Uma boa maneira de me relacionar é o seguinte:

  1. Role um único dado e você tem a mesma probabilidade de rolar cada número (1-6) e, portanto, o PDF é constante.

  2. Lance dois dados e some os resultados, e o PDF não é mais constante. Isso ocorre porque existem 36 combinações e o intervalo somatório é de 2 a 12. A probabilidade de um 2 é uma combinação singular única de 1 + 1. A probabilidade de um 12 também é única, pois só pode ocorrer em uma única combinação de 6 + 6. Agora, olhando para 7, existem várias combinações, como 3 + 4, 5 + 2 e 6 + 1 ( e suas permutações reversas). À medida que você trabalha fora do valor médio (ou seja, 7), existem combinações menores para 6 e 8 etc. até chegar às combinações singulares de 2 e 12. Este exemplo não resulta em uma distribuição normal clara, mas quanto mais dados você adiciona e, quanto mais amostras você colher, o resultado tenderá a uma distribuição normal.

  3. Portanto, conforme você soma um intervalo de variáveis ​​independentes sujeitas a variação aleatória (cada uma com seu próprio PDF), mais a saída resultante tenderá à normalidade. Isso em termos do Seis Sigma nos dá o que chamamos de 'Voz do Processo'. Isso é o que chamamos de resultado de "variação de causa comum" de um sistema e, portanto, se a saída tende à normalidade, chamamos esse sistema de "controle estatístico do processo". Onde a saída não é normal (inclinada ou deslocada), dizemos que o sistema está sujeito a uma "variação de causa especial", na qual houve algum "sinal" que influenciou o resultado de alguma maneira.

Espero que ajude.


1

Que lei da física faz para que tantos fenômenos naturais tenham distribuição normal?

Nenhuma idéia. Por outro lado, também não faço ideia se é verdade ou o que significa 'tantos'.

No entanto, reorganizando um pouco o problema, há boas razões para supor (ou seja, modelar ) uma quantidade contínua que você acredita ter uma média fixa e uma variação com uma distribuição Normal. Isso ocorre porque a distribuição Normal é o resultado da maximização da entropia sujeita a essas restrições de momento. Uma vez que, grosso modo, a entropia é uma medida de incerteza, que faz do Normal a escolha da forma distributiva mais não comprometida ou maximamente incerta.

Agora, a idéia de que se deva escolher uma distribuição maximizando sua entropia sujeita a restrições conhecidas realmente tem algum apoio da física em termos do número de maneiras possíveis de cumpri-las. Jaynes em mecânica estatística é a referência padrão aqui.

Observe que, embora a entropia máxima motive as distribuições normais nesse caso, diferentes tipos de restrições podem ser mostrados para levar a diferentes famílias distributivas, por exemplo, o exponencial familiar, poisson, binomial etc.

Sivia and Skilling 2005 ch.5 tem uma discussão intuitiva.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.