Uma distribuição que é normal, mas altamente distorcida, é considerada gaussiana?


12

Eu tenho a seguinte pergunta: como você acha a distribuição do tempo gasto por dia no YouTube?

Minha resposta é que provavelmente é normalmente distribuído e altamente inclinado para a esquerda. Espero que exista um modo em que a maioria dos usuários gaste algum tempo médio e, em seguida, uma longa cauda direita, já que alguns usuários são usuários avançados.

Essa é uma resposta justa? Existe uma palavra melhor para essa distribuição?


4
Como algumas respostas mencionam, mas não enfatizam, a assimetria é nomeada informalmente para a cauda mais longa, se houver uma, portanto, assimétrica, se for uma cauda direita mais longa. Esquerda e direita, conforme usado neste contexto, ambos pressupõem uma exibição seguindo uma convenção de que a magnitude é mostrada no eixo hoirizontal. Se isso parecer óbvio demais, considere exibições na Terra e ciências ambientais nas quais a magnitude é altura ou profundidade e mostrada verticalmente. Letras pequenas: algumas medidas de assimetria podem ser zero, mesmo que uma distribuição seja inclinada geometricamente.
Nick Cox

1
Tempo total por dia para todos os usuários? ou hora por dia por pessoa? Neste último caso, então certamente há um moderadamente grande pico em 0, caso em que você provavelmente precisará de uma distribuição de estilo 'spike e laje' com um delta de Dirac em 0.
Innisfree

6
"Normal" é sinônimo de "Gaussiana", e as distribuições Gaussianas, também chamadas de distribuições normais, não são distorcidas.
Michael Hardy

Acho a pergunta no título muito diferente da pergunta no texto do corpo. Ou pelo menos o título é muito confuso. Nenhuma distribuição é 'normal, mas altamente distorcida', o que é uma contradição. Além disso, a distribuição gaussiana está muito bem definida e nada parecido com a distribuição do tempo gasto por dia no YouTube. Portanto, a resposta para a pergunta no título é um grande não. f(x)=12πσ2exp((xμ)22σ2)
Sextus Empiricus

2
Além disso, a pergunta no final 'existe uma palavra melhor para essa distribuição?' é muito vago ou amplo. A informação parece ser apenas 'um modo' e 'uma longa cauda direita' (a parte 'provavelmente distribuída normalmente' não faz sentido). Pode haver muitas distribuições que satisfazem essas condições. É surpreendente que essa pergunta atraia mais de dez respostas e pelo menos tantas propostas para a distribuição alternativa antes de realmente tentarmos esclarecer a questão (nem sequer há dados).
Sextus Empiricus

Respostas:


14

Uma fração por dia certamente não é negativa. Isso exclui a distribuição normal, que tem massa de probabilidade em todo o eixo real - em particular na metade negativa.

As distribuições de leis de energia são freqüentemente usadas para modelar coisas como distribuições de renda, tamanhos de cidades etc. Elas não são negativas e geralmente são altamente distorcidas. Essa seria a primeira vez que tentaria modelar o tempo gasto assistindo ao YouTube. (Ou monitorando perguntas CrossValidated.)

Mais informações sobre leis de energia podem ser encontradas aqui ou aqui , ou em nossa etiqueta de .


16
Você está completamente certo de que as distribuições normais têm suporte na linha real. E, no entanto ... eles não são um modelo terrível para algumas qualidades estritamente positivas, como a altura ou o peso dos adultos, onde a média e a variação são tais que os valores negativos são muito improváveis ​​no modelo.
Matt Krause

2
@MattKrause Essa é realmente uma ótima pergunta - existe a mesma probabilidade de eu estar '10 cm acima ou abaixo da altura média' ou '10% acima ou abaixo da altura média'? Somente o primeiro caso poderia justificar a distribuição normal.
Tomáš Kafka

1
@MattKrause: Concordo plenamente, em um sentido geral. No entanto, a pergunta atual é sobre a proporção do tempo diário gasto assistindo ao YouTube. Não temos dados, mas ficaria extremamente surpreso se a distribuição fosse remotamente simétrica.
Stephan Kolassa

43

Uma distribuição normal não é altamente inclinada. Isso é uma contradição. Variáveis ​​normalmente distribuídas têm inclinação = 0.


1
Qual é a melhor maneira de descrever a distribuição? Existe uma palavra para esse tipo de distribuição em que ele se concentra em um modo e depois tem uma cauda longa?
Cauder 30/03/19

13
Unimodal e distorcida é o mais perto que eu posso vir ...
jbowman

9
Como um aparte, é realmente incrível que as pessoas dediquem seu tempo para ajudar outras pessoas a melhorarem essas coisas. Eu sei que é óbvio, mas é tão legal o que vocês dois fazem!
Cauder 30/03/19

6
Sim, mas vale a pena esclarecer que essa afirmação pertence à população normalmente distribuída. Uma amostra retirada dessa população pode ser muito distorcida.
gung - Restabelece Monica

Quando o valor de inclinação é pequeno ("pequeno" sendo decidido pelas pessoas que lidam com as estatísticas em questão), você ainda pode tratar a população como normal, embora com um erro menor.
Carl Witthoft 01/04/19


13

Pode ser uma distribuição log-normal. Como mencionado aqui :

O tempo de permanência dos usuários em artigos on-line (piadas, notícias etc.) segue uma distribuição normal do log.

A referência dada é: Yin, Peifeng; Luo, Ping; Wang-Chien Lee; Wang, Min (2013). O silêncio também é uma evidência: a interpretação do tempo de permanência para recomendação da perspectiva psicológica. Conferência Internacional da ACM sobre KDD.


7

"Existe uma palavra melhor para essa distribuição?"

Há uma distinção interessante aqui entre usar palavras para descrever as propriedades da distribuição, em vez de tentar encontrar um "nome" para a distribuição, para que você possa identificá-la como (aproximadamente) uma instância de uma distribuição padrão específica: uma para a qual uma fórmula ou tabelas estatísticas podem existir para sua função de distribuição e para as quais você pode estimar seus parâmetros. Neste último caso, você provavelmente está usando a distribuição nomeada, por exemplo, "normal / Gaussian" (os dois termos são geralmente sinônimos), como um modelo que captura alguns dos principais recursos de seus dados, em vez de reivindicar a população em que seus dados estão. extraído de segue exatamente essa distribuição teórica. Para citar levemente George Box,todos os modelos estão "errados", mas alguns são úteis. Se você está pensando na abordagem de modelagem, vale a pena considerar quais recursos você deseja incorporar e quão complicado ou parcimonioso você deseja que seu modelo seja.

Ser inclinado positivamente é um exemplo de descrição de uma propriedade que a distribuição possui, mas não chega nem perto de especificar qual distribuição pronta para uso é "o" modelo apropriado. Ele exclui alguns candidatos, por exemplo, a distribuição Gaussiana (ou seja, normal) tem inclinação zero, portanto não será apropriado modelar seus dados se a inclinação for um recurso importante. Pode haver outras propriedades dos dados que também são importantes para você, por exemplo, a curtose unimodal (tem apenas um pico) ou que são limitadas entre 0 e 24 horas (ou entre 0 e 1, se você estiver escrevendo como uma fração do dia) ou que exista uma massa de probabilidade concentrada em zero (já que existem pessoas que não assistem ao youtube em um determinado dia). . E vale lembrar que, mesmo que sua distribuição tenha uma forma de "corcunda" ou "curva em sino" e tenha inclinação zero ou quase zero, isso não significa automaticamente que a distribuição normal seja "correta" para ela!Por outro lado, mesmo que a população da qual seus dados foram extraídos realmente siga uma distribuição específica com precisão, devido ao erro de amostragemseu conjunto de dados pode não se parecer muito com ele. É provável que pequenos conjuntos de dados sejam "barulhentos" e talvez não esteja claro se certos recursos que você pode ver, por exemplo, pequenos corpos ou caudas assimétricas, são propriedades da população subjacente da qual os dados foram extraídos (e, portanto, devem ser incorporados no seu modelo) ou se são apenas artefatos de sua amostra específica (e para fins de modelagem devem ser ignorados). Se você tiver um conjunto de dados pequeno e a inclinação estiver próxima de zero, é ainda plausível que a distribuição subjacente seja simétrica. Quanto maior o seu conjunto de dados e maior a assimetria, menos plausível isso se torna - mas enquanto vocêpode realizar um teste de significância para ver quão convincente é a evidência de que seus dados fornecem distorção na população em que foram extraídos ; isso pode estar faltando o ponto sobre se uma distribuição normal (ou outra distorção zero) é apropriada como modelo . .

Quais propriedades dos dados são realmente importantes para os fins que você pretende modelá-los? Observe que, se a inclinação é razoavelmente pequena e você não se importa muito com isso, mesmo que a população subjacente seja genuinamente inclinada , você ainda pode achar a distribuição normal um modelo útil para aproximar essa verdadeira distribuição dos tempos de exibição. Mas você deve verificar se isso não acaba fazendo previsões tolas. Como uma distribuição normal não possui o maior ou o menor valor possível, embora valores extremamente altos ou baixos se tornem cada vez mais improváveis, você sempre descobrirá que seu modelo prevê que há algumaprobabilidade de observar um número negativo de horas por dia ou mais de 24 horas. Isso fica mais problemático para você se a probabilidade prevista de tais eventos impossíveis se tornar alta. Uma distribuição simétrica como a normal preverá que tantas pessoas assistirão por períodos de tempo mais de, por exemplo, 50% acima da média, quanto assistirão por menos de 50% abaixo da média. Se os tempos de exibição são muito assimétricos, esse tipo de previsão também pode ser tão implausível que pode ser bobo e fornecer resultados enganosos se você estiver obtendo os resultados do seu modelo e usá-los como entradas para outros fins (por exemplo, você está executando uma simulação dos tempos de exibição para calcular a programação ideal do anúncio). Se a inclinação é tão notável que você deseja capturá-la como parte do seu modelo, então o distorcer a distribuição normal pode ser mais apropriado. Se você deseja capturar a assimetria e a curtose, considere o t inclinado . Se você deseja incorporar os limites superior e inferior fisicamente possíveis, considere usar o truncadoversões dessas distribuições. Existem muitas outras distribuições de probabilidade que podem ser distorcidas e unimodais (para opções de parâmetros apropriadas), como as distribuições F ou gama , e novamente você pode truncá-las para que não prevejam tempos de exibição impossivelmente altos. A distribuição betapode ser uma boa opção se você estiver modelando a fração do dia passado assistindo, pois isso é sempre limitado entre 0 e 1 sem que seja necessário mais truncamento. Se você deseja incorporar a concentração de probabilidade exatamente igual a zero devido a não observadores, considere construir um modelo de obstáculos .

Mas no momento em que você está tentando incluir todos os recursos que você pode identificar a partir de seus dados e criar um modelo cada vez mais sofisticado, talvez você deva se perguntar por que está fazendo isso? Haveria uma vantagem em um modelo mais simples, por exemplo, ser mais fácil trabalhar matematicamente ou ter menos parâmetros para estimar? Se você está preocupado com o fato de que essa simplificação não permita capturar todas as propriedades de seu interesse, pode ser que nenhuma distribuição "pronta para uso" faça exatamente o que você deseja. No entanto, não estamos restritos a trabalhar com distribuições nomeadas cujas propriedades matemáticas foram elucidadas anteriormente. Em vez disso, considere usar seus dados para construir uma função de distribuição empírica. Isso capturará todo o comportamento presente em seus dados, mas você não poderá mais dar um nome como "normal" ou "gama", nem aplicar propriedades matemáticas que pertencem apenas a uma distribuição específica. Por exemplo, a regra "95% dos dados está dentro de 1,96 desvios padrão da média" refere-se a dados normalmente distribuídos e pode não se aplicar à sua distribuição; note que algumas regras se aplicam a todas as distribuições, por exemplo, a desigualdade de Chebyshev garante pelo menos75% dos seus dados devem estar dentro de dois desvios padrão da média, independentemente da inclinação. Infelizmente, a distribuição empírica também herdará todas as propriedades do seu conjunto de dados que surgem puramente por erro de amostragem, não apenas aquelas possuídas pela população subjacente; portanto, você pode encontrar um histograma de sua distribuição empírica com algumas mudanças que a própria população não possui. . Você pode investigar as funções de distribuição empírica suavizada ou, melhor ainda, aumentar o tamanho da amostra.

Em resumo: embora a distribuição normal tenha inclinação zero, o fato de seus dados estarem inclinados não descarta a distribuição normal como um modelo útil, embora sugira que outra distribuição possa ser mais apropriada. Você deve considerar outras propriedades dos dados ao escolher seu modelo, além da inclinação, e também os propósitos para os quais você usará o modelo. É seguro dizer que sua verdadeira população de horários de exibição não segue exatamente uma distribuição famosa e chamada, mas isso não significa que essa distribuição esteja fadada a ser inútil como modelo. No entanto, para alguns propósitos, você pode preferir usar apenas a distribuição empírica em vez de tentar ajustar uma distribuição padrão a ela.



4

"Normal" e "Gaussiano" significam exatamente a mesma coisa. Como outras respostas explicam, a distribuição que você está falando não é normal / gaussiana, porque essa distribuição atribui probabilidades a todos os valores na linha real, enquanto sua distribuição existe apenas entre0 024.


3

No caso em questão, uma vez que o tempo gasto por dia está vinculado a 0 0 para 1 (se quantificada como uma fração do dia), as distribuições ilimitadas acima (por exemplo, Pareto, skew-normal, Gamma, log-normal) não funcionarão, mas Beta funcionaria.


2

Que tal um modelo de obstáculos?

Um modelo de obstáculo tem duas partes. O primeiro é o experimento de Bernoulli, que determina se você usa o YouTube. Caso contrário, o tempo de uso é obviamente zero e está pronto. Se você o fizer, "ultrapassa esse obstáculo", o tempo de uso vem de alguma outra distribuição estritamente positiva.

Um conceito intimamente relacionado são modelos inflados a zero. Elas são destinadas a lidar com uma situação em que observamos um monte de zeros, mas não podemos distinguir entre sempre zeros e às vezes zeros. Por exemplo, considere o número de cigarros que uma pessoa fuma todos os dias. Para não fumantes, esse número é sempre zero, mas alguns fumantes podem não fumar em um determinado dia (sem cigarros? Em um vôo longo?). Ao contrário do modelo de obstáculos, a distribuição "fumante" aqui deve incluir zero, mas essas contagens são "infladas" pela contribuição dos não fumantes também.


0

Se a distribuição for realmente um 'subconjunto' da distribuição normal, considere um modelo truncado. Amplamente utilizada neste contexto é a família de modelos TOBIT.
Eles sugerem essencialmente um pdf com uma massa de probabilidade (positiva) em 0 e, em seguida, um "corte de parte da distribuição normal" para valores positivos.
Vou me abster de digitar a fórmula aqui e, em vez disso, encaminhá-lo para o Artigo da Wikipedia: https://en.wikipedia.org/wiki/Tobit_model


-4

As distribuições normais são, por definição, não distorcidas, portanto você não pode ter as duas coisas. Se a distribuição estiver inclinada para a esquerda, não poderá ser gaussiana. Você terá que escolher um diferente! O mais próximo do seu pedido que consigo pensar é o seguinte:

https://en.wikipedia.org/wiki/Skew_normal_distribution


5
Concordo, exceto que o OP está confundindo assimetria esquerda e direita, como já apontado. E o @behold já sugeriu a inclinação normal em uma resposta. Portanto, não vejo como isso contribui para as respostas existentes.
Nick Cox

Ele resume muitos deles em uma resposta de três linhas simples e direta
David

4
Desculpe, mas isso ainda é repetição.
Nick Cox

OK ... quem se importa?
David

4
Bem, eu faço; e quem adicionou +1 aos meus comentários (claramente não eu) e quem diminuiu sua resposta (não eu, por acaso). Este tópico já é longo e repetitivo; ainda mais comentários redundantes não o melhoram para futuros leitores.
Nick Cox
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.