Em um dos exercícios do meu curso, estamos usando um conjunto de dados médicos do Kaggle .
O exercício diz:
queremos modelar a distribuição de cobranças individuais e também queremos realmente capturar nossa incerteza sobre essa distribuição, para que possamos capturar melhor a faixa de valores que poderemos ver. Carregando os dados e executando uma visão inicial:
Podemos suspeitar do exposto que existe algum tipo de distribuição exponencial em jogo aqui. ... Os encargos de reivindicação de seguro podem ser multimodais. A distribuição gama pode ser aplicável e poderíamos testar isso para a distribuição de cobranças que não eram reivindicações de seguro primeiro.
Eu olhei para cima "distribuição Gama" e encontrou "um, positivo somente, distribuição unimodal contínuo que codifica o tempo necessário para«alfa»eventos para ocorrer em um processo de Poisson com o tempo de chegada médio de«beta»"
Não há tempo envolvido aqui, apenas cobranças não relacionadas, seguradas ou não.
Por que eles escolheriam uma distribuição gama?