Converter distribuição Poisson em distribuição normal

Eu tenho principalmente experiência em ciência da computação, mas agora estou tentando me ensinar estatísticas básicas. Eu tenho alguns dados que eu acho que tem uma distribuição Poisson

insira a descrição da imagem aqui

Eu tenho duas perguntas:

Esta é uma distribuição de Poisson?
Em segundo lugar, é possível converter isso em uma distribuição normal?

Qualquer ajuda seria apreciada. Muito obrigado

normal-distribution data-transformation poisson-distribution

— Abhi
fonte

1. Não, uma distribuição Poisson geralmente possui um modo na vizinhança de seu parâmetro e, portanto, combiná-lo com uma distribuição Poisson significaria um valor muito pequeno para o parâmetro. 2. Sim e não. O que você gostaria de fazer com uma distribuição normal?

— Dilip Sarwate

Estou tentando alimentar esses dados em uma regressão logística. Fui levado a acreditar que os dados distribuídos normalmente produz resultados muito melhores

— Abhi

Respostas:

1) O que é mostrado parece ser (agrupado) dados contínuos desenhados como um gráfico de barras.

Você pode concluir com bastante segurança que é não uma distribuição de Poisson.

Uma variável aleatória Poisson assume os valores 0, 1, 2, ... e tem o pico mais alto em 0 somente quando a média é menor que 1. É usada para dados de contagem; se você desenhou um gráfico semelhante dos dados de Poisson, pode parecer com os gráficos abaixo:

$\hspace{1.5cm}$ insira a descrição da imagem aqui

O primeiro é um Poisson que mostra assimetria semelhante à sua. Você pode ver que sua média é bem pequena (cerca de 0,6).

O segundo é um Poisson que tem um significado semelhante (em um palpite bastante grosseiro) ao seu. Como você vê, parece bastante simétrico.

Você pode ter a assimetria ou a média grande, mas não as duas ao mesmo tempo.

2) (i) Você não pode normalizar dados discretos -

Com os dados agrupados, usando qualquer transformação de aumento monotônico, você moverá todos os valores de um grupo para o mesmo local, para que o grupo mais baixo ainda tenha o pico mais alto - veja o gráfico abaixo. No primeiro gráfico, movemos as posições dos valores x para coincidir com um cdf normal:

insira a descrição da imagem aqui

No segundo gráfico, vemos a função de probabilidade após a transformação. Não podemos realmente alcançar algo como normalidade, porque é ao mesmo tempo discreto e inclinado; o grande salto do primeiro grupo continuará sendo um grande salto, independentemente de você empurrá-lo para a esquerda ou direita.

(ii) Os dados inclinados contínuos podem ser transformados para parecer razoavelmente normais. Se você tem valores brutos (não agrupados) e eles não são muito discretos, é possível fazer alguma coisa, mas mesmo assim quando as pessoas procuram transformar seus dados, isso é desnecessário ou o problema subjacente pode ser resolvido de uma maneira diferente (geralmente melhor) . Às vezes, a transformação é uma boa escolha, mas geralmente é feita por razões não muito boas.

Então ... por que você quer transformá-lo?

— Glen_b -Reinstate Monica
fonte

Obrigado Glen pela resposta muito detalhada. Explica muitos conceitos. Estou tentando alimentar esses dados em um modelo de regressão logística. Eu pensei (não tenho tanta certeza agora) que os dados distribuídos normalmente produzem resultados muito melhores. O que você recomenda?

— Abhi

Essa é a variável independente (uma variável )? O que você quer dizer com "melhores resultados" neste contexto?

x

$x$

— Glen_b -Reinstala Monica

@Glen_b Muito obrigado pela maravilhosa resposta. Também sou da área de ciência da computação e permaneci nessa pergunta: stats.stackexchange.com/questions/408232/… Por favor, deixe-me saber sua opinião sobre isso. Estou ansioso para ouvir de você. Muito obrigado mais uma vez :)

— EMJ

Por favor, não use comentários para tentar recrutar pessoas para responder às suas perguntas. Eu já vi sua pergunta.

— Glen_b -instala Monica

Publicando informações mais divertidas para a posteridade.

Há uma publicação mais antiga que discute um problema semelhante em relação ao uso de dados de contagem como uma variável independente para regressões logísticas.

Aqui está:

O uso de dados de contagem como variável independente viola algumas das suposições do GLM?

Como Glen mencionou, se você está simplesmente tentando prever um resultado dicotômico, é possível que você possa usar os dados de contagem não transformados como um componente direto do seu modelo de regressão logística. No entanto, uma nota de cautela: quando uma variável independente (IV) é distribuída por poisson E varia em várias ordens de magnitude usando os valores brutos, pode resultar em pontos altamente influentes, que por sua vez podem influenciar seu modelo. Se for esse o caso, pode ser útil realizar uma transformação nos IVs para obter um modelo mais robusto.

Transformações como a raiz quadrada ou o log podem aumentar a relação entre o IV e o odds ratio. Por exemplo, se alterações em X em três ordens inteiras de magnitude (longe do valor mediano X) corresponderem a uma mera alteração de 0,1 na probabilidade de ocorrência de Y (longe de 0,5), é bastante seguro supor que qualquer discrepância de modelo ocorrerá levar a um viés significativo devido à extrema alavancagem dos valores extremos de X.

Para ilustrar melhor, imagine que desejássemos usar a classificação Scoville de vários chili peppers (domínio [X] = {0, 3,2 milhões}) para prever a probabilidade de uma pessoa classificar a pimenta como "desconfortavelmente picante" (intervalo [Y] = {1 = sim, 0 = não}) depois de comer uma pimenta da classificação correspondente X.

https://en.wikipedia.org/wiki/Scoville_scale

Se você observar o gráfico das classificações de scoville, poderá ver que uma transformação de log das classificações brutas de Scoville ofereceria uma aproximação mais próxima das classificações subjetivas (1-10) de cada chili.

Portanto, nesse caso, se quiséssemos criar um modelo mais robusto que captasse a verdadeira relação entre as classificações brutas de Scoville e a classificação subjetiva de calor, poderíamos realizar uma transformação logarítmica nos valores X. Ao fazer isso, reduzimos o impacto do domínio X excessivamente grande, "efetivamente" diminuindo "a distância entre valores que diferem em ordens de magnitude e, consequentemente, reduzindo o peso de quaisquer outliers X (por exemplo, aqueles que são intolerantes à capsaicina e / ou loucos por especiarias! !!) têm em nossas previsões.

Espero que isso adicione algum contexto divertido!

— Ryan Arellano
fonte