A distribuição normal não permite valores negativos?
Corrigir. Também não tem limite superior.
Em uma parte do meu livro, ele diz que uma distribuição normal pode ser boa para modelar as notas dos exames.
Apesar das declarações anteriores, no entanto, às vezes é esse o caso. Se você tem muitos componentes para o teste, não tem uma relação muito forte (por exemplo, você não é essencialmente a mesma pergunta uma dúzia de vezes, nem exige que cada parte exija uma resposta correta à parte anterior) e não é muito fácil ou muito difícil ( para que a maioria das marcas esteja em algum lugar próximo do meio), as marcas geralmente podem ser razoavelmente bem aproximadas por uma distribuição normal; frequentemente bem o suficiente para que análises típicas causem pouca preocupação.
Nós sabemos com certeza que eles não são normais , mas isso não é automaticamente um problema - desde que o comportamento dos procedimentos que usamos são perto o suficiente para que eles devem ser para os nossos propósitos (por exemplo, erros padrão, intervalos de confiança, níveis de significância e poder - o que for necessário - faça o que esperamos)
Na próxima parte, ele pergunta qual distribuição seria apropriada para modelar uma reivindicação de seguro de carro. Desta vez, ele disse que as distribuições apropriadas seriam gama ou gaussiana inversa porque são contínuas apenas com valores positivos.
Sim, mas mais do que isso - eles tendem a ser altamente inclinados à direita e a variabilidade tende a aumentar quando a média fica maior.
Aqui está um exemplo de uma distribuição de tamanho de declaração para reivindicações de veículo:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Fig 5 de Garrido, Genest & Schulz (2016) "Modelos lineares generalizados para frequência dependente e gravidade de reivindicações de seguros", Insurance: Mathematics and Economics, Vol 70, setembro, p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )
Isso mostra uma inclinação direita típica e cauda direita pesada. No entanto, devemos ter muito cuidado, porque essa é uma distribuição marginal e estamos escrevendo um modelo para a distribuição condicional , que normalmente será muito menos distorcida (a distribuição marginal que observamos se fizermos apenas um histograma de tamanhos de afirmações como uma mistura dessas distribuições condicionais). No entanto, normalmente é o caso de que, se examinarmos o tamanho da afirmação em subgrupos dos preditores (talvez categorizando variáveis contínuas), a distribuição ainda esteja fortemente inclinada à direita e com cauda bastante pesada à direita, sugerindo que algo como um modelo gama * seja provavelmente mais adequado do que um modelo gaussiano.
* pode haver várias outras distribuições que seriam mais adequadas que uma gaussiana - a gaussiana inversa é outra opção - embora menos comum; Os modelos lognormal ou Weibull, embora não sejam GLMs como estão, também podem ser bastante úteis.
[Raramente é o caso de qualquer uma dessas distribuições serem descrições quase perfeitas; são aproximações inexatas, mas, em muitos casos, suficientemente boas para que a análise seja útil e tenha perto das propriedades desejadas.]
Bem, acredito que as pontuações dos exames também seriam contínuas apenas com valores positivos; então, por que usaríamos uma distribuição normal lá?
Porque (nas condições que eu mencionei antes - muitos componentes, não muito dependentes, não muito difíceis ou fáceis), a distribuição tende a ser bastante próxima de simétrica, unimodal e não de cauda pesada.