Responderei seu ponto de vista sobre simulações com R, porque este é o único com o qual estou familiarizado. R possui muitas distribuições internas que você pode simular. A lógica da nomeação é que simulará uma distribuição chamada dis
nome rdis
.
Abaixo estão os que eu uso com mais frequência
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
Você pode encontrar alguns complementos em Montagem distribuições R .
Adição: obrigado a @jthetzel por fornecer um link com uma lista abrangente de distribuições e os pacotes aos quais eles pertencem.
Mas espere, tem mais: OK, seguindo o comentário do @ whuber, tentarei abordar os outros pontos. Em relação ao ponto 1, nunca adotei uma abordagem adequada. Em vez disso, sempre penso na origem do sinal, como o que causa o fenômeno, existem simetrias naturais no que o produz etc. Você precisa de vários capítulos de livros para cobri-lo, então, apenas darei dois exemplos.
Se os dados são contados e não há limite superior, tento um Poisson. Variáveis de Poisson podem ser interpretadas como as contagens de sucessivos independentes durante uma janela de tempo, que é uma estrutura muito geral. Eu me encaixo na distribuição e vejo (geralmente visualmente) se a variação está bem descrita. Muitas vezes, a variação da amostra é muito maior, caso em que eu uso um binômio negativo. O binômio negativo pode ser interpretado como uma mistura de Poisson com diferentes variáveis, o que é ainda mais geral, portanto, isso geralmente se ajusta muito bem à amostra.
Se penso que os dados são simétricos em torno da média, ou seja , que os desvios têm a mesma probabilidade de serem positivos ou negativos, tento ajustar um gaussiano. Em seguida, verifico (novamente visualmente) se existem muitos valores discrepantes, ou seja , pontos de dados muito distantes da média. Se houver, eu uso o t de um aluno. A distribuição t de Student pode ser interpretada como uma mistura de gaussiana com diferentes variações, o que é novamente muito geral.
Nesses exemplos, quando digo visualmente, quero dizer que uso um gráfico de QQ
O ponto 3 também merece vários capítulos de livros. Os efeitos do uso de uma distribuição em vez de outra são ilimitados. Então, em vez de passar por tudo, continuarei os dois exemplos acima.
Nos meus primeiros dias, eu não sabia que o Binomial Negativo pode ter uma interpretação significativa, por isso usei Poisson o tempo todo (porque gosto de poder interpretar os parâmetros em termos humanos). Muitas vezes, quando você usa um Poisson, adapta-se bem à média, mas subestima a variação. Isso significa que você não consegue reproduzir valores extremos da sua amostra e considerará esses valores como outliers (pontos de dados que não têm a mesma distribuição que os outros pontos) enquanto eles não o são.
Novamente nos meus primeiros dias, eu não sabia que o t de Student também tinha uma interpretação significativa e que eu usava o gaussiano o tempo todo. Aconteceu uma coisa semelhante. Eu ajustaria bem a média e a variância, mas ainda assim não capturaria os valores discrepantes, porque quase todos os pontos de dados devem estar dentro de três desvios padrão da média. O mesmo aconteceu, concluí que alguns pontos eram "extraordinários", enquanto na verdade não eram.