Distribuição normal e transformações monotônicas


9

Ouvi dizer que muitas quantidades que ocorrem na natureza são normalmente distribuídas. Isso normalmente é justificado usando o teorema do limite central, que diz que, quando você calcula a média de um grande número de variáveis ​​aleatórias de iid, obtém uma distribuição normal. Assim, por exemplo, uma característica que é determinada pelo efeito aditivo de um grande número de genes pode ser distribuída aproximadamente normalmente, uma vez que os valores dos genes podem se comportar aproximadamente como variáveis ​​aleatórias.

Agora, o que me confunde é que a propriedade de ser normalmente distribuída claramente não é invariável sob transformações monotônicas. Portanto, se existem duas maneiras de medir algo que está relacionado por uma transformação monotônica, é improvável que ambas sejam normalmente distribuídas (a menos que essa transformação monotônica seja linear). Por exemplo, podemos medir os tamanhos das gotas de chuva por diâmetro, área de superfície ou volume. Assumindo formas semelhantes para todas as gotas de chuva, a área da superfície é proporcional ao quadrado do diâmetro e o volume é proporcional ao cubo do diâmetro. Portanto, todas essas formas de medição não podem ser normalmente distribuídas.

Portanto, minha pergunta é se a maneira particular de escalar (isto é, a escolha particular da transformação monotônica) sob a qual a distribuição se torna normal deve ter um significado físico. Por exemplo, as alturas devem ser normalmente distribuídas ou o quadrado da altura, ou o logaritmo da altura, ou a raiz quadrada da altura? Existe uma maneira de responder a essa pergunta entendendo os processos que afetam a altura?


Como eu sempre entendi, o teorema do limite central não postula algo sobre a média de um grande número de variáveis ​​aleatórias do iid. Em vez disso, afirma que quando a amostragem significa, a distribuição dos meios se torna normal (independente da distribuição subjacente à qual é amostrada). Por isso, questiono se o antecedente da sua pergunta se mantém.
Henrik

Mas, se a média da amostragem se tornar normal, independentemente da distribuição da distribuição subjacente, isso não será o mesmo que dizer 'calcular uma média de um grande número de variáveis ​​aleatórias da IID' nos fornecerá uma distribuição normal. Para mim, eles parecem declarações equivalentes.

Não aos meus olhos (mas eu gostaria de estar convencido do contrário). No primeiro caso (o que eu acho que significa CLT), você extrai amostras de uma distribuição. Seus meios são normalmente distribuídos. O que eu entendo da pergunta e da citação "calcula a média de um grande número de variáveis ​​aleatórias de identificação" é ainda diferente: instanciações individuais de diferentes variáveis ​​aleatórias de identificação determinam (ou compõem) uma característica. Portanto, nenhuma média (ou seja, calculando uma média) de uma única distribuição e, portanto, nenhuma aplicação do CLT. Acho que as respostas do mbq apontam para o mesmo problema.
Henrik

11
Bem, a distribuição não precisa ser idêntica se algumas condições se mantiverem. Veja: en.wikipedia.org/wiki/…

11
@Henrik: Existe alguma diferença significativa entre uma única amostra de cada um dos N RV independentes e distribuídos de forma idêntica e as N medidas independentes de um único RV?
28810 walkytalky

Respostas:


5

Muito boa pergunta. Eu sinto que a resposta depende se você pode identificar o processo subjacente que dá origem à medida em questão. Se, por exemplo, você tiver evidências de que a altura é uma combinação linear de vários fatores (por exemplo, altura dos pais, altura dos avós etc.), seria natural supor que a altura seja normalmente distribuída. Por outro lado, se você tem evidências ou talvez até a teoria de que o log de altura é uma combinação linear de várias variáveis ​​(por exemplo, alturas dos pais de log, log de alturas de avós etc.), o log de altura será normalmente distribuído.

Na maioria das situações, não conhecemos o processo subjacente que conduz a mensuração do interesse. Assim, podemos fazer uma de várias coisas:

(a) Se a distribuição empírica das alturas parecer normal, usamos a densidade normal para análises posteriores que implicitamente assumem que a altura é uma combinação linear de várias variáveis.

(b) Se a distribuição empírica não parecer normal, podemos tentar algumas transformações, conforme sugerido por mbq (por exemplo, log (height)). Nesse caso, assumimos implicitamente que a variável transformada (isto é, log (altura)) é uma combinação linear de várias variáveis.

(c) Se (a) ou (b) não ajudarem, devemos abandonar as vantagens que a CLT e uma suposição de normalidade nos dão e modelar a variável usando alguma outra distribuição.


5

O redimensionamento de uma variável específica deve, quando possível, relacionar-se com alguma escala compreensível, pelo motivo de ajudar a tornar o modelo resultante interpretável. No entanto, a transformação resultante não precisa absolutamente ter um significado físico. Essencialmente, você precisa se comprometer entre a violação da suposição de normalidade e a interpretabilidade do seu modelo. O que eu gosto de fazer nessas situações é ter os dados originais, os dados transformados de uma maneira que faça sentido e os dados transformados da maneira mais normal. Se os dados transformados de uma maneira que faça sentido forem iguais aos resultados, quando os dados forem transformados de uma maneira que os torne mais normais, Eu o relato de uma maneira que seja interpretável com uma nota lateral de que os resultados são os mesmos no caso dos dados otimizados transformados (e / ou não transformados). Quando os dados não transformados estão se comportando particularmente mal, conduzo minhas análises com os dados transformados, mas faço o possível para relatar os resultados em unidades não transformadas.

Além disso, acho que você tem um equívoco em sua declaração de que "quantidades que ocorrem na natureza são normalmente distribuídas". Isso é válido apenas nos casos em que o valor é "determinado pelo efeito aditivo de um grande número" de fatores independentes. Ou seja, os meios e as somas são normalmente distribuídos, independentemente da distribuição subjacente a partir da qual eles extraem, onde não se espera que os valores individuais sejam distribuídos normalmente. Como foi o exemplo, os sorteios individuais de uma distribuição binomial não parecem normais, mas uma distribuição das somas de 30 sorteios de uma distribuição binomial parece bastante normal.


5

Devo admitir que realmente não entendi sua pergunta:

  • seu exemplo de gotas de chuva não é muito satisfatório, pois isso não está ilustrando o fato de que o comportamento gaussiano vem da "média de um grande número de variáveis ​​aleatórias de IDI".

  • se a quantidade que você estiver interessado for uma média que flutua em torno de sua média de uma maneira gaussiana, você também pode esperar que tem um comportamento gaussiano.Y 1 + + Y NX f(S1)++f(SN)Y1++YNNf(Y1)++f(YN)N

  • se a flutuação de torno de sua média é aproximadamente gaussiana e pequena, também a flutuação de torno de sua média (por expansão de Taylor)f ( X )Xf(X)

  • você poderia citar alguns exemplos verdadeiros de comportamento gaussiano (na vida real) provenientes da média: isso não é muito comum! O comportamento gaussiano é freqüentemente usado em estatística como uma primeira aproximação aproximada, porque os cálculos são muito tratáveis. Como os físicos usam a aproximação harmônica, os estatísticos usam a aproximação gaussiana.


o princípio da entropia máxima também é outra razão pela qual a distribuição gaussiana é usada. Por exemplo, quais são as boas razões para usar erros gaussianos no modelo linear, exceto a tratabilidade?
Alekk

5

Vipul, você não está sendo totalmente preciso em sua pergunta.

Isso normalmente é justificado usando o teorema do limite central, que diz que, quando você calcula a média de um grande número de variáveis ​​aleatórias de iid, obtém uma distribuição normal.

Não tenho muita certeza de que é isso que você está dizendo, mas lembre-se de que as gotas de chuva no seu exemplo não são variáveis ​​aleatórias. A média calculada pela amostragem de um determinado número dessas gotas de chuva é uma variável aleatória e, como as médias são calculadas usando um tamanho de amostra suficientemente grande, a distribuição dessa média amostral é normal.

A lei dos grandes números diz que o valor dessa média amostral converge para o valor médio da população (forte ou fraco, dependendo do tipo de convergência).

O CLT diz que a média da amostra, chamada XM (n), que é uma variável aleatória, tem uma distribuição, digamos G (n). À medida que n se aproxima da infintidade, essa distribuição é a distribuição normal. O CLT trata-se de convergência na distribuição , não um conceito básico.

As observações que você desenha (diâmetro, área, volume) não precisam ser normais. Eles provavelmente não serão se você os traçar. Porém, a média da amostra de todas as três observações terá uma distribuição normal. E, o volume não será o cubo do diâmetro, nem a área será o quadrado do diâmetro. O quadrado da soma não será a soma dos quadrados, a menos que você tenha uma sorte estranha.


4

Simplesmente o CLT (nem qualquer outro teorema) não afirma que toda quantidade no universo é normalmente distribuída. De fato, os estatísticos costumam usar transformações monotônicas para melhorar a normalidade, para que possam usar suas ferramentas favoritas.


4

Eu acho que você não entendeu (metade) o estatístico de uso da distribuição normal, mas eu realmente gosto da sua pergunta.

Não acho que seja uma boa idéia assumir a normalidade sistematicamente e admito que isso seja feito algum dia (talvez porque a distribuição normal seja tratável, unimodal ...) sem verificação. Portanto, sua observação sobre o mapa monotônico é excelente!

No entanto, o uso poderoso da normalidade ocorre quando você constrói novas estatísticas, como a que aparece quando você aplica a contraparte empírica da expectativa: a média empírica . Portanto, a média empírica e a suavização mais geral é o que faz a normalidade aparecer em todos os lugares ...


2

Tanto uma variável aleatória quanto muitas transformações podem ser aproximadamente normais; de fato, se a variação for pequena em comparação com a média, pode ser que uma variedade muito ampla de transformações pareça bastante normal.

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

4 histogramas mostrando quase normalidade

( clique para versão ampliada )

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.