Por que eles escolheriam uma distribuição gama aqui?

Em um dos exercícios do meu curso, estamos usando um conjunto de dados médicos do Kaggle .

O exercício diz:

queremos modelar a distribuição de cobranças individuais e também queremos realmente capturar nossa incerteza sobre essa distribuição, para que possamos capturar melhor a faixa de valores que poderemos ver. Carregando os dados e executando uma visão inicial:

Podemos suspeitar do exposto que existe algum tipo de distribuição exponencial em jogo aqui. ... Os encargos de reivindicação de seguro podem ser multimodais. A distribuição gama pode ser aplicável e poderíamos testar isso para a distribuição de cobranças que não eram reivindicações de seguro primeiro.

Eu olhei para cima "distribuição Gama" e encontrou "um, positivo somente, distribuição unimodal contínuo que codifica o tempo necessário para«alfa»eventos para ocorrer em um processo de Poisson com o tempo de chegada médio de«beta»"

Não há tempo envolvido aqui, apenas cobranças não relacionadas, seguradas ou não.

Por que eles escolheriam uma distribuição gama?

gamma-distribution

— Vicki B
fonte

Quando você está considerando modelos paramétricos simples para a distribuição condicional de dados (ou seja, a distribuição de cada grupo ou a distribuição esperada para cada combinação de variáveis preditoras) e está lidando com uma distribuição contínua positiva , as duas opções comuns são Gamma e log-Normal . Além de satisfazer a especificação do domínio da distribuição (números reais maiores que zero), essas distribuições são computacionalmente convenientes e geralmente fazem sentido mecanicista.

A distribuição log-Normal é facilmente derivada exponenciando uma distribuição Normal (inversamente, os desvios log-transformadores de log-Normal fornecem desvios Normal). Do ponto de vista mecanicista, o log-Normal surge através do Teorema do Limite Central quando cada observação reflete o produto de um grande número de variáveis aleatórias do iid. Depois de transformar os dados no log, você terá acesso a uma enorme variedade de ferramentas computacionais e analíticas (por exemplo, qualquer coisa que assuma a Normalidade ou use métodos dos mínimos quadrados).
$n$ $\lambda$ está disponível; também possui uma forma particularmente conveniente para análise.

Há outros motivos pelos quais um pode escolher um ou outro - por exemplo, o "peso" da cauda da distribuição , que pode ser importante na previsão da frequência de eventos extremos. Existem muitas outras distribuições positivas e contínuas (por exemplo, veja esta lista ), mas elas tendem a ser usadas em aplicações mais especializadas.

Muito poucas dessas distribuições capturam a multimodalidade que você vê nas distribuições marginais acima, mas a multimodalidade pode ser explicada pelos dados agrupados em categorias descritas pelos preditores categóricos observados. Se não houver preditores observáveis que expliquem a multimodalidade, pode-se optar por ajustar um modelo de mistura finita com base em uma mistura de um número (pequeno, discreto) de distribuições contínuas positivas.

— Ben Bolker
fonte

Também vale a pena notar que os modelos de gama e lognormais dar quase sempre resultados muito semelhantes

— carlo

Eu trabalho na pesquisa de serviços de saúde. Posso confirmar que, em geral, uma distribuição gama ou lognormal seria uma escolha apropriada para um modelo de gastos com saúde ou valores de sinistros. A distribuição gama pode ser usada em tempo para modelos de eventos, mas não são aplicáveis aqui.

— 30719

Obrigado!! Isso foi muito útil.

— Vicki B