Quais são alguns usos importantes da geração de números aleatórios em estatística computacional?


15

Como e por que os RNGs são importantes na estatística computacional?

Entendo que a aleatoriedade é importante ao escolher amostras para muitos testes estatísticos, a fim de evitar distorções em relação a qualquer hipótese, mas existem outras áreas da estatística computacional em que os geradores de números aleatórios são importantes?


4
Intimamente relacionados: stats.stackexchange.com/q/135665/35989
Tim

11
O que você está perguntando? Sua pergunta realmente não faz muito sentido.
Carl Witthoft 31/01

2
Talvez seja melhor solicitar áreas nas quais elas não são importantes. Provavelmente seria uma lista mais curta.
John Coleman

2
A pergunta é ampla, mas o título é atraente e a resposta de Matthew é uma boa visão geral. Eu votei para reabrir!
Benoit Sanchez

3
Isso é claramente amplo demais para os padrões convencionais de SE, e equivale a uma pergunta de "grande lista" que provavelmente acumulará muitas respostas pequenas e pouco elaboradas que geralmente duplicam as respostas já fornecidas. No entanto, parece haver algum valor real aqui. Um compromisso é que isso seja protegido pela CW. No futuro, as respostas que mencionarem algo sem elaboração e / ou que usos duplicados já mencionados serão excluídas imediatamente e sem comentários.
gung - Restabelece Monica

Respostas:


17

Existem muitos, muitos exemplos. Muitos para listar, e provavelmente muitos para que alguém possa conhecer completamente (além de possivelmente @whuber, que nunca deve ser subestimado).

Como você mencionou, em experimentos controlados , evitamos o viés de amostragem dividindo aleatoriamente os indivíduos em grupos de tratamento e controle.

No bootstrapping , aproximamos a amostragem repetida de uma população por amostragem aleatória com substituição de uma amostra fixa. Isso nos permite estimar a variação de nossas estimativas, entre outras coisas.

Na validação cruzada , estimamos o erro fora da amostra de uma estimativa dividindo aleatoriamente nossos dados em fatias e montando conjuntos de treinamento e teste aleatórios.

Nos testes de permutação , usamos permutações aleatórias para amostrar sob a hipótese nula, permitindo realizar testes de hipótese não paramétricos em uma ampla variedade de situações.

No empacotamento , controlamos a variação de uma estimativa executando repetidamente estimativas em amostras de bootstrap de dados de treinamento e, em seguida, calculando a média dos resultados.

Em florestas aleatórias , controlamos ainda mais a variação de uma estimativa, amostrando também aleatoriamente os preditores disponíveis em todos os pontos de decisão.

Na simulação , solicitamos a um modelo de ajuste que gere aleatoriamente novos conjuntos de dados que possamos comparar com dados de treinamento ou teste, ajudando a validar o ajuste e as suposições em um modelo.

Na cadeia de Markov, Monte Carlo , coletamos amostras de uma distribuição explorando o espaço de possíveis resultados usando uma cadeia de Markov (graças a @Ben Bolker por este exemplo).

Essas são apenas as aplicações comuns e cotidianas que vêm à mente imediatamente. Se eu cavasse fundo, provavelmente poderia dobrar o comprimento dessa lista. A aleatoriedade é um objeto importante de estudo e uma ferramenta importante a ser exercida.


Isso tudo é verdade, mas não resolve o problema principal: um PRNG com qualquer tipo de estrutura resultante ou previsibilidade na sequência fará com que as simulações falhem.
Carl Witthoft 31/01

3
Uma das coisas que merece destaque são os custos computacionais e de memória da geração de grandes números de números aleatórios ou pseudo-aleatórios. Algumas aplicações de RNGs em estatísticas exigem centenas a milhões de números aleatórios, mas algumas exigem muitas ordens de magnitude mais que incidem sobre esses dois custos.
Alexis

5

Isso tudo é verdade, mas não resolve o problema principal: um PRNG com qualquer tipo de estrutura resultante ou previsibilidade na sequência fará com que as simulações falhem. Carl Witthoft 31 de janeiro às 15:51

Se essa é sua preocupação, talvez o título da pergunta deva ser alterado para "Impacto da escolha da RNG nos resultados de Monte Carlo" ou algo assim. Nesse caso, já considerado na validação cruzada SE , aqui estão algumas instruções

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.