Pergunta simples de combinação / probabilidade com base no comprimento da string e nos caracteres possíveis

Supondo "aleatoriedade completa" e com uma sequência de 20 caracteres, em que cada caractere pode ser um dos 62 caracteres possíveis:

Qual é o número total de combinações possíveis? (Adivinhando 20 ao poder de 62.)
Além disso, se novas sequências de caracteres forem selecionadas aleatoriamente uma após a outra e adicionadas a uma lista de sequências de caracteres selecionadas até agora, quantas sequências de caracteres devem ser selecionadas antes que a chance de selecionar uma sequência que já tenha sido selecionada esteja abaixo de 1 em 100000 ( )? $10^{-5}$

Nota: 62 vem de: dígitos numéricos (0 a 9), letras maiúsculas (AZ) e letras minúsculas (az).

probability combinatorics

— erros
fonte

Seu segundo marcador pode ser lido de (pelo menos) duas maneiras possíveis. Eu estou querendo saber o que você está interessado. ( 1 ) A probabilidade de que o º seqüência corresponder a uma das seqüências anteriores ou ( 2 ) A probabilidade de que pelo tempo que o º string é selecionado existe algum duplicado dentro da coleção de cordas desenhadas até agora. As respostas para essas duas perguntas serão muito diferentes. :)

n

$n$

n

$n$

— cardeal

Talvez considerar um alfabeto de dois caracteres torne a diferença clara. Deixe as letras ser e . Podemos perguntar: ( 1 ) Para que temos pelo menos 99% de chance da ésima sequência ser uma duplicata de uma sequência anterior? O aqui é 8, pois a única maneira de falharmos é se nossa sequência é ou , que tem probabilidade total . Ou, perguntamos ( 2 ) Para que temos pelo menos 99% de chance de ver alguma duplicata? Nesse caso, já que, no momento em que vimos três cadeias,

H

$H$

T

$T$

n

$n$

n

$n$

n

$n$

T T T \dots T H

$TTT \cdots TH$

H H H \dots H T

$HHH\cdots HT$

2^{- (n - 1)}

$2^{-(n-1)}$

n

$n$

n = 3

$n = 3$

H

$H$ ou foi repetido pelo menos uma vez.

T

$T$

— cardeal

A resposta de Matt lida com ( 1 ), que essencialmente responde à pergunta sobre se "minha" string corresponde à de outra pessoa. Mas, se você está preocupado com o fato de as cordas de outras duas pessoas também potencialmente corresponderem, então você está interessado em ( 2 ). Tudo se resume a se você tem uma sequência específica de interesse com a qual está comparando todas as outras ou se está comparando todas as sequências. Não tenho certeza se estou deixando isso mais claro, no entanto. (Seu problema resume-se a uma das duas variantes do famoso chamado "paradoxo do aniversário".)

— cardeal

Cardeal está, como sempre, correto. Presumi que você tivesse uma string "alvo", para a qual estava gerando uma lista de suposições. Se, em vez disso, você estiver gerando seqüências aleatoriamente e quiser saber o número que é seguro gerar antes que as duas correspondam, a resposta é muito diferente. Vou alterar minha resposta para resolver esse caso, se estiver tudo bem com você.

— Matt Krause

Não deixei meu exemplo anterior completamente claro. Me desculpe por isso. Eu estava pensando em um alfabeto de duas letras e desenhando cordas de comprimento um . Por isso, quando eu escrevi , que representava , , ..., , .

{H, T}

$\{H,T\}$

H H H \dots H T

$HHH\cdots HT$

s_{1} = H

$s_1 = H$

s_{2} = H

$s_2 = H$

s_{n - 1} = H

$s_{n-1} = H$

s_{n} = T

$s_n = T$

— cardeal

Número total de possibilidades

1) Fechar! Você tem 62 opções para o primeiro caractere, 62 para o 2º, etc., então você acaba com , que é um número absurdamente grande. $62 \cdot 62 \cdot 62 \cdot \cdots 62 = 62^{20}$

Colisão com uma String "Target"

2) Como estabelecemos acima, existem cadeias em potencial. Você quer saber quantas precisaria adivinhar para ter mais de 1 em 100.000 chances de adivinhar a sequência "alvo". Essencialmente, você está perguntando o que Para deixar claro, você teria que arredondar x para cima (ou adicionar um, se forem precisamente iguais), mas como você verá em um segundo, isso realmente não importa. $62^{20}$

\frac{x}{62^{20}} \geq \frac{1}{10^{5}}

$\frac{x}{62^{20}} \ge \frac{1}{10^5}$

Através da álgebra básica, podemos reorganizar isso como

\begin{aligned} 10^{5} x & \geq 62^{20} \\ 10^{5} x & \geq (6.2 \cdot 10)^{20} \\ 10^{5} x & \geq {6.2}^{20} \cdot 10^{20} \\ x & \geq {6.2}^{20} \cdot 10^{15} \end{aligned}

$\begin{aligned} 10^5x &\ge 62^{20}\\ 10^5{x} &\ge (6.2 \cdot 10)^{20}\\ 10^5x &\ge 6.2^{20} \cdot 10^{20}\\ x &\ge 6.2^{20} \cdot 10^{15} \end{aligned}$

Fazendo as contas, é de cerca de , então vamos chamar a coisa toda de ou, mais sucintamente, um monte de coisas. $6.2^{20}$ $7 \cdot 10^{15}$ $7 \cdot 10^{30}$

É por isso que as senhas longas funcionam muito bem :-) Para senhas reais, é claro, você precisa se preocupar com cadeias de comprimento menores ou iguais a vinte, o que aumenta ainda mais o número de possibilidades.

Duplicatas na lista

Agora, vamos considerar o outro cenário. As strings são geradas aleatoriamente e queremos determinar quantas podem ser geradas antes que exista uma chance de 1: 100.000 de quaisquer duas strings correspondentes. A versão clássica desse problema é chamada de Problema de Aniversário (ou 'Paradoxo') e pergunta qual é a probabilidade de duas de n pessoas terem o mesmo aniversário. O artigo da wikipedia [1] parece decente e possui algumas tabelas que você pode achar úteis. No entanto, vou tentar dar a você o sabor da resposta aqui também.

Algumas coisas a ter em mente:

-A probabilidade de uma correspondência e de não haver correspondência deve somar 1, então e vice-versa. $P(\textrm{match}) = 1 - P(\textrm{no match})$

-Para dois eventos independentes e , a probabilidade de . $A$ $B$ $P(A \& B) = P(A) \cdot P(B)$

Para obter a resposta, começaremos calculando a probabilidade de não encontrar uma correspondência para um número fixo de cadeias . Uma vez que sabemos como fazer isso, podemos definir essa equação igual ao limite (1 / 100.000) e resolver para . Por conveniência, vamos chamar o número de sequências possíveis ( ). $k$ $k$ $N$ $62^{20}$

Nós vamos 'andar' pela lista e calcular a probabilidade de que a string ^ {th} corresponda a qualquer uma das strings "acima" dela na lista. Para a primeira string, temos strings totais e nada na lista, então . Para a segunda sequência, ainda existem possibilidades totais, mas uma delas foi "usada" pela primeira, portanto, a probabilidade de uma correspondência para essa sequência é Para a terceira sequência, há duas maneiras de uma correspondência e, portanto, não, portanto e assim por diante. Em geral, a probabilidade do $k$ $N$ $P_{k=1}(\textrm{no match}) = \frac{N}{N} = 1$ $N$ $P_{k=2}(\textrm{no match}) = \frac{N-1}{N}$ $N-2$ $P_{k=3}(\textrm{no match}) = \frac{N-2}{N}$ $k$ késima sequência que não corresponde às outras é

P_{k} (no match) = \frac{N - k + 1}{N}

$P_{k}(\textrm{no match})= \frac{N-k+1}{N}$

No entanto, queremos a probabilidade de não haver correspondência entre nenhuma das strings. Como todos os eventos são independentes (de acordo com a pergunta), podemos apenas multiplicar essas probabilidades juntas, assim: Isso pode ser simplificado um pouco: O primeiro passo apenas multiplica as frações, o segundo usa a definição de fatorial ( ) para substituir os produtos de $k$

P (No Matches) = \frac{N}{N} \cdot \frac{N - 1}{N} \cdot \frac{N - 2}{N} \dots \frac{N - k + 1}{N}

$P(\textrm{No Matches}) = \frac{N}{N} \cdot \frac{N-1}{N} \cdot \frac{N-2}{N} \cdots \frac{N-k+1}{N}$

\begin{aligned} P (No Matches) & = \frac{N \cdot (N - 1) \cdot (N - 2) \dots (N - k + 1)}{N^{k}} \\ P (No Matches) & = \frac{N!}{N^{k} \cdot (N - k)!} \\ P (No Matches) & = \frac{k! \cdot (\binom{N}{k})}{N^{k}} \end{aligned}

$\begin{aligned} P(\textrm{No Matches}) &= \frac{N \cdot (N-1) \cdot (N-2) \cdots (N-k+1)}{N^k} \\ P(\textrm{No Matches}) &= \frac{N!}{N^k \cdot (N-k)!} \\ P(\textrm{No Matches}) &= \frac{k! \cdot \binom{N}{k}}{N^k} \\ \end{aligned}$

k! = (k) \cdot (k - 1) \cdot (k - 2) \dots 1

$k! = (k) \cdot (k-1) \cdot (k-2) \cdots 1$

N - k + 1 \dots N

$N-k+1 \cdots N$ com algo um pouco mais gerenciável, e a etapa final alterna em um coeficiente binomial. Isso nos dá uma equação para a probabilidade de não haver correspondências após a geração de strings. Em teoria, você pode definir isso igual a e resolver para . Na prática, será difícil responder, pois você multiplicará / dividirá por grandes números - os fatoriais crescem muito rapidamente ( Tem mais de 150 dígitos).

k

$k$

\frac{1}{100, 000}

$\frac{1}{100,000}$

k

$k$

100!

$100!$

No entanto, existem aproximações, tanto para calcular o fatorial quanto para todo o problema. Este artigo [2] sugere onde p é a probabilidade de não encontrar uma correspondência. Seus testes atingem o máximo de , mas ainda é bastante preciso lá. Conectando seus números, recebo aproximadamente .

k = 0.5 + \sqrt{0.25 - 2 N \ln (p)}

$k = 0.5 + \sqrt{0.25 - 2N\ln(p)}$

N = 48, 000

$N=48,000$

3.7 \cdot 10^{15}

$3.7 \cdot 10^{15}$

Referências

[1] http://en.wikipedia.org/wiki/Birthday_problem

[2] Mathis, Frank H. (junho de 1991). "Um problema generalizado de aniversário". Revisão do SIAM (Sociedade de Matemática Industrial e Aplicada) 33 (2): 265–270. Link JSTOR

— Matt Krause
fonte

+1 Incrível, dado claramente que minhas habilidades matemáticas fracas resultaram na pergunta, deixarei a pergunta sem resposta por um dia, mas fica bem para mim e fica muito mais clara do que eu esperava - uma resposta muito clara - obrigado!

— Erro #

Feliz em ajudar! Deixe-me saber se algo não está claro. Para chutes, corri os números. Você precisará de 7044234255469980229683302646164 suposições; como eu disse - muito!

— Matt Krause

+1 @Matt Krause: +1 ao seu comentário abaixo da resposta; sua resposta e seu compromisso em dar a melhor resposta possível é exemplar, digna de nota e obrigado por todo o seu trabalho duro!

— erros cometidos