Simulando distribuições

Estou trabalhando em uma tarefa de Planejamento de capacidade e li alguns livros. Isto é especificamente sobre distribuições. Eu uso R.

Qual é a abordagem recomendada para identificar qual é a minha distribuição de dados? Existem métodos estatísticos para identificá-lo?

Eu tenho esse diagrama.

ABORDAGENS PROBABILÍSTICAS: ANÁLISE CENÁRIA, ÁRVORES DE DECISÃO E SIMULAÇÕES

Quais são as abordagens de simulação disponíveis usando R? Aqui eu quero gerar dados para uma certa distribuição como exponencial. O r-java é a abordagem correta se eu quiser integrá-lo ao Java?
Existe uma maneira de prever qual distribuição o efeito (uso da CPU, etc.) terá quando canalizar dados para uma distribuição específica? Quais são os diferentes efeitos do envio de determinadas distribuições de dados?

Por favor, considere estas como perguntas para iniciantes. Existem livros ou material que lidam com esses tipos de simulações?

Notas

O diagrama é do final do artigo http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf .

Bondade de técnicas de ajuste que me deparei

Avaliação da qualidade do ajuste

Qui-quadrado
Kolmogorov-Smirnov,
Gráfico de densidade de Anderson-Darling, cdf, PP e QQ

Não sei ao certo qual deve ser a interpretação ou as próximas etapas se achar que minha distribuição é normal ou exponencial etc. O que isso me permite fazer? Predição? Espero que esta pergunta seja clara.

Atrasos exponenciais induzirão flutuações na fila, conforme meu livro de Planejamento de capacidade de Neil Gunther. Então, eu sei esse ponto.

distributions simulation

— Mohan Radhakrishnan
fonte

Se você acha que seu diagrama é importante, tente melhorar a qualidade da imagem ...

— ocram

Agradeço o cuidado necessário para fazer uma boa pergunta. Na minha opinião, seu ponto 2. (que deveria ser 3, eu acho) precisa de esclarecimentos, ou você pode até movê-lo para Stack Overflow.

— precisa saber é o seguinte

Eu acho que minha última pergunta pertence aqui. Digamos que eu identifique minha distribuição de dados. É que eu prevejo que futuras distribuições seguirão essa probabilidade? Faltam parte da análise de dados aqui. Eu sei que um gráfico de bigodes de caixa mostra facilmente quartis que eu entendo. Eu não entendo a utilidade de uma distribuição. Pode haver propriedades dessa distribuição que eu preciso investigar para obter previsões.

— Mohan Radhakrishnan

@ocram Se a qualidade for ruim, amplie a página no seu navegador: os detalhes estão lá. BTW, essas imagens devem ser de parte da documentação do Crystal Ball .

— whuber

@whuber: Na verdade, eu nem tentei! Desculpe pelo comentário.

— Ocram

Responderei seu ponto de vista sobre simulações com R, porque este é o único com o qual estou familiarizado. R possui muitas distribuições internas que você pode simular. A lógica da nomeação é que simulará uma distribuição chamada disnome rdis.

Abaixo estão os que eu uso com mais frequência

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

Você pode encontrar alguns complementos em Montagem distribuições R .

Adição: obrigado a @jthetzel por fornecer um link com uma lista abrangente de distribuições e os pacotes aos quais eles pertencem.

Mas espere, tem mais: OK, seguindo o comentário do @ whuber, tentarei abordar os outros pontos. Em relação ao ponto 1, nunca adotei uma abordagem adequada. Em vez disso, sempre penso na origem do sinal, como o que causa o fenômeno, existem simetrias naturais no que o produz etc. Você precisa de vários capítulos de livros para cobri-lo, então, apenas darei dois exemplos.

Se os dados são contados e não há limite superior, tento um Poisson. Variáveis de Poisson podem ser interpretadas como as contagens de sucessivos independentes durante uma janela de tempo, que é uma estrutura muito geral. Eu me encaixo na distribuição e vejo (geralmente visualmente) se a variação está bem descrita. Muitas vezes, a variação da amostra é muito maior, caso em que eu uso um binômio negativo. O binômio negativo pode ser interpretado como uma mistura de Poisson com diferentes variáveis, o que é ainda mais geral, portanto, isso geralmente se ajusta muito bem à amostra.
Se penso que os dados são simétricos em torno da média, ou seja , que os desvios têm a mesma probabilidade de serem positivos ou negativos, tento ajustar um gaussiano. Em seguida, verifico (novamente visualmente) se existem muitos valores discrepantes, ou seja , pontos de dados muito distantes da média. Se houver, eu uso o t de um aluno. A distribuição t de Student pode ser interpretada como uma mistura de gaussiana com diferentes variações, o que é novamente muito geral.

Nesses exemplos, quando digo visualmente, quero dizer que uso um gráfico de QQ

O ponto 3 também merece vários capítulos de livros. Os efeitos do uso de uma distribuição em vez de outra são ilimitados. Então, em vez de passar por tudo, continuarei os dois exemplos acima.

Nos meus primeiros dias, eu não sabia que o Binomial Negativo pode ter uma interpretação significativa, por isso usei Poisson o tempo todo (porque gosto de poder interpretar os parâmetros em termos humanos). Muitas vezes, quando você usa um Poisson, adapta-se bem à média, mas subestima a variação. Isso significa que você não consegue reproduzir valores extremos da sua amostra e considerará esses valores como outliers (pontos de dados que não têm a mesma distribuição que os outros pontos) enquanto eles não o são.
Novamente nos meus primeiros dias, eu não sabia que o t de Student também tinha uma interpretação significativa e que eu usava o gaussiano o tempo todo. Aconteceu uma coisa semelhante. Eu ajustaria bem a média e a variância, mas ainda assim não capturaria os valores discrepantes, porque quase todos os pontos de dados devem estar dentro de três desvios padrão da média. O mesmo aconteceu, concluí que alguns pontos eram "extraordinários", enquanto na verdade não eram.

— gui11aume
fonte

Uma nota para adicionar a resposta de gui11aume: Há uma sintaxe "d, p, q, r" para funções relacionadas com a distribuição em R. Por exemplo, dnorm, pnorm, qnorm, e rnormsão a densidade, a função de distribuição cumulativa (CDF), inversa CDF, e funções aleatórias de gerador de variáveis para a distribuição Normal, respectivamente. Consulte a exibição da tarefa de distribuição de probabilidade para obter uma lista abrangente de distribuições disponíveis.

— precisa saber é o seguinte

Sim, muito obrigado (+1). Eu estava procurando essa lista por um longo tempo. Coloquei na resposta para que fique mais visível.

— precisa saber é o seguinte

Eu não podia nem dizer o que é um terço dessas distribuições. Muito mais para aprender. +1, mas não vamos esquecer o restante da pergunta, que é fundamental (mas talvez um pouco ampla demais): que efeitos as escolhas de distribuição têm em uma simulação? Como alguém deve fazer essas escolhas?

— whuber

@whuber Adicionei o efeito da distribuição exponencial de atrasos nas flutuações da fila. Referir. livros no CP ou na fila.

— Mohan Radhakrishnan

Eu li Distribuições ajustadas com R e também usei plot QQ uma vez. A estimativa de máxima verossimilhança começa com a expressão matemática conhecida como função de verossimilhança dos dados da amostra. Em termos gerais, a probabilidade de um conjunto de dados é a probabilidade de obter esse conjunto específico de dados, dado o modelo de probabilidade escolhido. Isso significa que existe uma maneira de calcular que a distribuição pode ocorrer novamente? Quantas medidas são necessárias para provar isso?

— Mohan Radhakrishnan