Algumas perguntas sobre aleatoriedade estatística

Do randoness estatístico de Wikipedia :

Aleatoriedade global e aleatoriedade local são diferentes. A maioria das concepções filosóficas de aleatoriedade é global - porque elas se baseiam na idéia de que "a longo prazo" uma sequência parece verdadeiramente aleatória, mesmo que certas sub-sequências não pareçam aleatórias. Em uma sequência "verdadeiramente" aleatória de números de comprimento suficiente, por exemplo, é provável que haja longas sequências de nada além de zeros, embora no geral a sequência possa ser aleatória. A aleatoriedade local refere-se à ideia de que pode haver comprimentos mínimos de sequência nos quais as distribuições aleatórias são aproximadas.Trechos longos dos mesmos dígitos, mesmo aqueles gerados por processos aleatórios "verdadeiramente", diminuiriam a "aleatoriedade local" de uma amostra (pode ser apenas localmente aleatória para sequências de 10.000 dígitos; sequências inferiores a 1.000 podem não parecer aleatórias por exemplo).

Uma sequência exibindo um padrão não é, assim, provada não ser estatisticamente aleatória. De acordo com os princípios da teoria de Ramsey, objetos suficientemente grandes devem necessariamente conter uma dada subestrutura ("o distúrbio completo é impossível").

Não entendo bem o significado das duas frases em negrito.

A primeira frase significa que algo torna uma sequência local aleatória em um comprimento maior, e não local aleatória em um comprimento menor?

Como funciona o exemplo entre parênteses?
A segunda frase significa que não se pode provar que uma sequência que exibe um padrão não é estatisticamente aleatória? Por quê?

obrigado

mathematical-statistics random-generation

— StackExchange for All
fonte

boa pergunta. Acho esse texto um pouco desconcertante. Eu teria pensado que se uma sequência é aleatória ou não tem a ver com a forma como é gerada; não qual é o resultado. Suspeito que exista um problema linguístico aqui - para mim, aleatoriamente, significa como ele é gerado; para o senso comum (e possivelmente filósofos com pensamento menos claro?), trata-se de algo que parece desordenado?

— Peter Ellis

@ Peter, você pode ter dificuldade em definir a aleatoriedade se puder se referir apenas ao mecanismo de geração. Por fim, como toda a utilidade das seqüências aleatórias reside nos números que elas contêm - e não na forma como esses números foram produzidos - deve haver uma maneira de definir e testar a aleatoriedade puramente em termos das sequências, você não acha?

— whuber

Certamente eu concordo que você pode testar a aleatoriedade a partir de seus resultados - para plausibilidade da aleatoriedade, sem aspirar à prova disso. Provavelmente preciso ler e pensar um pouco mais sobre os desafios filosóficos de uma definição baseada em geração.

— Peter Ellis

Eu acho que aleatoriedade é apenas sinônimo de desconhecido. Eu também acho esta frase bizzare

— probabilityislogic

Dilbert

— Henry

Respostas:

O conceito pode ser perfeitamente ilustrado por algum código executável. Começamos (in R) usando um bom gerador de números pseudo-aleatórios para criar uma sequência de 10.000 zeros e uns:

set.seed(17)
x <- floor(runif(10000, min=0, max=2))

Isso passa em alguns testes básicos de números aleatórios. Por exemplo, um teste t para comparar a média de tem um valor de p de %, o que nos permite aceitar a hipótese de que a zeros e uns estão igualmente provável. $1/2$ $40.09$

A partir desses números, prosseguimos para extrair uma subsequência de valores sucessivos começando no 5081st valor: $1000$

x0 <- x[1:1000 + 5080]

Para parecer aleatório, eles também devem passar nos mesmos testes de números aleatórios. Por exemplo, vamos testar se a média deles é 1/2:

> t.test(x0-1/2)

    One Sample t-test

data:  x0 - 1/2 
t = 2.6005, df = 999, p-value = 0.009445
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
 0.01006167 0.07193833 
sample estimates:
mean of x 
    0.041

O p-valor baixo (menos do que 1%) sugere fortemente a média é significativamente maior do que . De fato, a soma cumulativa dessa subsequência tem uma forte tendência ascendente: $1/2$

> plot(cumsum(x0-1/2))

Caminhada aleatória?

Isso não é comportamento aleatório!

A comparação da sequência original (plotada como uma soma cumulativa) com essa subsequência revela o que está acontecendo:

Caminhada aleatória

$9000$

Como essas análises simples mostraram, nenhum teste pode "provar" que uma sequência parece aleatória. Tudo o que podemos fazer é testar se as seqüências se desviam o suficiente dos comportamentos esperados das seqüências aleatórias para oferecer evidência de que elas não são aleatórias. É assim que as baterias dos testes de números aleatórios funcionam: eles procuram padrões altamente improváveis de surgir em seqüências numéricas aleatórias. De vez em quando, eles nos levam a concluir que uma sequência verdadeiramente aleatória de números não parece aleatória: nós a rejeitaremos e tentaremos outra coisa.

A longo prazo, porém - assim como estamos todos mortos - qualquer gerador de números verdadeiramente aleatórios gerará todas as sequências possíveis de 1000 dígitos e o fará infinitamente várias vezes. O que nos resgata de um dilema lógico é que teríamos que esperar muito tempo para que ocorra uma aberração tão aparente.

— whuber
fonte

Obrigado! Uma questão relacionada: ao testar a aleatoriedade dos números pseudo-aleatórios gerados por alguns métodos, a aleatoriedade significa distribuição uniforme? Em outras palavras, o teste de aleatoriedade apenas para testar distribuições uniformes? Perguntei isso porque essas distribuições mais tendenciosas parecem menos aleatórias para mim intuitivamente.

— StackExchange for All

@ Tim: não, existem muitos testes comuns para a aleatoriedade gaussiana e deve ser possível construir testes para qualquer distribuição.

— precisa saber é o seguinte

[0, 1)

$[0,1)$

Eu quase posso "olhar" no topo da resposta e dizer "Whuber" :) Muito bom!

— PhD

Este trecho usa os termos "aleatoriedade local" e "aleatoriedade global" para distinguir entre o que pode ocorrer com um número finito de amostras de uma variável aleatória e a distribuição ou expectativa de probabilidade de uma variável aleatória.

$x_i$ $\{0,1\}$ $\theta$ $\theta$ $\lim_{n \to \infty} \frac{1}{n} \sum_{i=1}^n x_i = \theta$

$[0,1]$ $[a,b]$ $0 \leq a < b \leq 1$ $\theta$

Nada de novo aqui.

$n$

Assim, eu não queimaria muitas células cerebrais pensando nesse trecho. Não é matematicamente tão preciso e é realmente enganador sobre a natureza da aleatoriedade.

Edite com base no comentário: @kjetilbhalvorsen +1 no seu comentário para obter o conhecimento histórico. No entanto, ainda acho que o valor desses termos é limitado e enganoso. As tabelas que você está descrevendo parecem implicar enganosamente que pequenas amostras que, por exemplo, têm uma média longe do valor real esperado ou talvez uma improvável, mas certamente possível longa sequência de 0s repetidos (no meu exemplo de Bernoulli), de alguma forma exibem menos aleatoriedade (dizendo que eles não exibem essa falsa "aleatoriedade local"). Não consigo pensar em nada mais enganoso para o estatístico iniciante!

— Chris A.
fonte

Embora "aleatoriedade global" pareça idiossincrática, "aleatoriedade local" tem pelo menos 20 anos de história. Veja isiweb.ee.ethz.ch/papers/arch/umaure-mass-inspec-1991-1.pdf , por exemplo.

— whuber

n

$n$

n

$n$

Lembro-me de que li algumas vezes o seguinte: na época em que as pessoas publicavam livros com tabelas de "números aleatórios" para serem usadas para simulação, experimentação etc., algumas delas tinham marcado partes das tabelas como adequadas para uso em pequenas simulações (exibindo "local" randomness ") e outras partes que devem ser usadas apenas para simulações maiores (exibindo" randomness global "). Portanto, os conceitos parecem apontar para algo valioso!

— Kjetil b halvorsen

Desculpe, não me lembro onde li isso. Mas é quase óbvio: além dos problemas filosóficos na definição da aleatoriedade, se você tiver simulações muito pequenas em que precisa de 1000 números aleatórios, e seu gerador aleatório de alta qualidade fornecer 1000 zeros, ¿O que você faz? Apesar de tais ocorrências serem possíveis e realmente necessárias em uma sequência "verdadeiramente aleatória", sua simulação está arruinada!

— Kjetil b halvorsen

Obrigado pessoal, eu fui talvez muito duro na minha condenação. Vou mudar um pouco o idioma disso.

— Chris A.

-1

Eu acho que os autores do post da Wikipedia são uma aleatoriedade errônea. Sim, pode haver trechos que parecem não ser aleatórios, mas se o processo que criou a sequência for realmente aleatório, também deve ser a saída. Se certas seqüências parecem não-aleatórias, é uma percepção errônea do leitor (isto é, os seres humanos são projetados para encontrar padrões). Nossa capacidade de ver o Ursa Maior, Orion, etc. no céu noturno não é evidência de que os padrões das estrelas sejam não aleatórios. Concordo que a aleatoriedade geralmente parece não-aleatória. Se um processo gera padrões verdadeiramente não aleatórios para sequências curtas, não é um processo aleatório.

Não acho que o processo mude em diferentes tamanhos de amostra. Você aumenta o tamanho da amostra, aumenta a probabilidade de vermos uma sequência aleatória que parece não ser aleatória. Se houver 10% de chance de vermos um padrão em 20 observações aleatórias, aumentar o número total de observações para 10000 aumentaria a probabilidade de vermos não aleatoriedade em algum lugar.

— P auritus
fonte

"Se um processo gera padrões verdadeiramente não aleatórios para sequências curtas, não é um processo aleatório" é, receio, totalmente incorreto. Por exemplo, em qualquer 100 lançamentos de uma moeda justa, esperamos observar seis caras ou seis coroas seguidas - e esse é um "padrão verdadeiramente não aleatório para [uma] sequência curta" pelo significado de quase qualquer um de "aleatório". " Eu suspeito que você pretendeu escrever algo que precise ser mais cuidadosamente qualificado, como aplicar "todos" antes de "sequências curtas".

— whuber

Verdade? Eu pensaria que, como se espera ver cordas de cabeças de cauda de um gerador de números aleatórios, que quando o vemos, não devemos nos surpreender. Por que considerá-lo não aleatório? Se alguém tivesse um gerador de números que desse 100 flips e evitasse propositalmente 4 ou mais caras ou coroas seguidas, pareceria mais aleatório do que um processo verdadeiramente aleatório, mas na verdade não seria aleatório. Uma visão ingênua da aleatoriedade é a falta de todos os padrões - mas isso não seria aleatório.

— P Auritus

Seu comentário está correto, mas a exposição em sua resposta não é clara e até contraditória neste ponto. Considere explicar com mais precisão o que você quer dizer com gerar "padrões verdadeiramente não aleatórios para sequências curtas", por exemplo, ou o que significa "ver a não aleatoriedade".

— whuber

Não vejo contradição. Você parece pensar que geradores aleatórios criam padrões não aleatórios. Essa é a contradição. Você está argumentando que processos verdadeiramente aleatórios gerarão observações não aleatórias. O que você está descrevendo são alguns chamados de "ilusão de agrupamento", que é a tendência de perceber incorretamente os clusters de distribuições aleatórias. Tudo o que estou dizendo é que, se um processo cria observações não aleatórias, não é aleatório. Você argumenta que espera que um processo aleatório crie cadeias de observações não aleatórias, mas que você chama isso de não aleatório. Exemplo clássico de Apophenia.

— P Auritus

É difícil manter uma conversa com um interlocutor que deturpa a posição de alguém, então vou me curvar dessa. Desculpe.

— whuber