Quantos americanos, escolhidos aleatoriamente, são necessários para ter 50% de chance de dois morarem no mesmo estado ou em estados adjacentes?

fundo

Estou estudando coincidências comuns e coincidências "próximas" que, no entanto (indevidamente) impressionam a pessoa comum. A pergunta abaixo é uma extensão do famoso problema do aniversário , que pergunta "Quantas pessoas, escolhidas aleatoriamente, são necessárias para que haja 50% de chance de duas delas compartilharem o mesmo aniversário?" A resposta é . (Na verdade, é um pouco mais baixo se alguém incorpora o fato de que os aniversários não são distribuídos uniformemente ao longo do ano, mas sim "se acumula" em alguns meses, aumentando assim a probabilidade de duas pessoas compartilharem o mesmo aniversário.) Se alguém relaxa a condição e permite a coincidência "quase" de ter o mesmo aniversário ou diferir por um dia , a resposta cai para apenas , $23$ $14$

O abaixo é uma extensão do problema de aniversário, mas mais interessante e complicado.

Quantos americanos, escolhidos aleatoriamente, são necessários para ter uma chance de 50% de que dois deles vivam em a) no mesmo estado ou b) no mesmo estado ou em um estado adjacente?

Suponha que recebamos uma lista dos 50 estados com suas populações:

${\cal S} = \{ (AL, 4.803M), (AK, 0.738M), (AR, 2.978M), \ldots \}$

bem como uma matriz de adjacência (ou gráfico não direcionado ) contendo as informações de adjacência de estado (incluindo auto-adjacências), ou seja, compartilhe uma borda: ${\bf M}$ $g$

$\{ (CA, CA), (CA, WA), (CA, NV), (CA, AZ), (AK, AK), (ME, NH), \ldots \}$ .

Observe que queremos resolver esse problema computando com probabilidades condicionais e sem recorrer a simulações estocásticas. Uma abordagem tão rigorosa é baseada em princípios e generaliza mais naturalmente a problemas muito grandes.

A abordagem para a) será uma generalização do problema do aniversário, mas a resposta para b) parece um pouco mais complicada.

Estou procurando apenas as equações (e explicações). Posso então calcular os valores numéricos usando dados censitários e geográficos.

Observarei aqui que, através da pesquisa estocástica, a resposta para b) é a (talvez surpreendente) apenas 3,5 pessoas. Com 4 pessoas, as chances são de quase 60%, pelo menos duas são do mesmo estado ou de estados vizinhos.

conditional-probability combinatorics birthday-paradox

— David G. Stork
fonte

Sim, 3.5 é um resultado muito surpreendente, eu teria pensado que seria um número inteiro.

— Mark L. Stone

Eu esperaria que a resposta fosse em torno de . O problema do aniversário nos ensina que está na ordem de . Porém, os estados menores não terão muito papel, tornando o número efetivo de estados apenas em torno de . Além disso, precisamos considerar apenas blocos de estados contíguos, que (dependendo do que você quer dizer com "adjacente") podem ser aproximadamente grupos de estados ou mais. Isso nos deixa com aproximadamente estados "efetivos", com uma raiz quadrada de .

3

$3$

\sqrt{50} \approx 7

$\sqrt{50}\approx 7$

25

$25$

5

$5$

10

$10$

3

$3$

— whuber

@ whuber: "Adjacente" é definido rigorosamente: Compartilhe uma borda.

— David G. Stork

Pessoalmente, se eu precisasse de uma resposta com mais precisão do que o cálculo do verso do envelope, simplesmente simularia. Se as informações de população e adjacência já estiverem disponíveis, eu provavelmente poderia fazer várias simulações antes de encontrar minha caneta e papel para começar a tentar escrever equações para elas. (O cálculo exato da coincidência é um pouco mais fácil, mas mesmo nesse caso eu provavelmente simularia de qualquer maneira)

— Glen_b -Reinstate Monica

@ David Isso pode parecer rigoroso, mas é ambíguo. E se a fronteira for imaginária no meio do oceano? Por exemplo, o Havaí e o Alasca "compartilham uma fronteira". E se a "borda compartilhada" for um ponto único, como na área de Quatro Cantos? Como você deixou bem claro em sua postagem original, esses detalhes não são importantes para a presente discussão - mas são importantes para cálculos específicos.

— whuber

Respostas:

Responderei à pergunta b) porque é mais geral, e a questão a) pode ser pensada como um caso especial de b) onde a matriz de adjacência é simplesmente a matriz de identidade. Vou dar o método exato, embora métodos aproximados possam ser necessários, porque o cálculo da solução exata é escalado rapidamente com o número de pessoas. Não acho que exista uma solução que dimensione melhor, mas talvez alguém possa me corrigir.

Ajuda a analisar o caso explícito de um pequeno número de pessoas, adicionando mais e procurando o padrão.

Vamos começar com a probabilidade de estados adjacentes para duas pessoas. A probabilidade de a primeira pessoa estar no estado e a segunda pessoa no estado é que que é o número de pessoas no estado eEles são adjacentes se onde é o ésimo elemento da matriz de adjacência. Portanto, a probabilidade de que eles sejam adjacentes é: $i$ $j$

P (i, j) = p_{i} p_{j},

$P(i,j) = p_i p_j,$

p_{l} = S_{l} / N,

$p_l = S_l/N,$

S_{l}

$S_l$

l,

$l,$

N = \sum_{l} S_{l} .

$N=\sum_l S_l.$

M_{i j} = 1,

$M_{i j} = 1,$

M_{i j}

$M_{i j}$

i, j

$i,j$

\begin{aligned} P_{2} & = \sum_{i = 1}^{k} \sum_{j = 1}^{k} P (i, j) M_{i j} \\ = 2 \sum_{i = 1}^{k - 1} \sum_{j = i + 1}^{k} p_{i} p_{j} M_{i j} + \sum_{i = 1}^{k} p_{i}^{2}, \end{aligned}

$\begin{split} P_2 &= \sum_{i=1}^k \sum_{j=1}^k P(i,j) M_{i j} \\ &= 2 \sum_{i=1}^{k-1} \sum_{j=i+1}^k p_i p_j M_{i j} + \sum_{i=1}^k p_i^2, \end{split}$ onde estou definindo como a probabilidade de haver pelo menos um par adjacente em um grupo de pessoas, é o número de estados. Também estou assumindo que todos os elementos diagonais de são um. Assim como no problema do aniversário, é mais útil encontrar a probabilidade de que eles não sejam adjacentes, ou seja,

P_{m}

$P_m$

m

$m$

k

$k$

M

$M$

Q_{2} = 1 - P_{2} = 2 \sum_{i = 1}^{k - 1} \sum_{j = i + 1}^{k} p_{i} p_{j} (1 - M_{i j}) .

$Q_2 = 1-P_2 = 2 \sum_{i=1}^{k-1} \sum_{j=i+1}^k p_i p_j (1 - M_{i j}).$

Vamos olhar para pessoas. É fácil ver que, No entanto, agora também é fácil ver por que esse cálculo pode se tornar intratável para um grande número de pessoas. O exposto acima não pode ser fatorado em termos de porque e devem aparecer nas somas , portanto, um processo indutivo com o qual determinamos em termos de parece estar fora da pergunta. Ele deve ser resolvido explicitamente para qualquer valor. No entanto, como eu fiz no caso de pessoas, geralmente você pode pegar o "triângulo retângulo" superior da $3$

Q_{3} = \sum_{i, j, l} p_{i} p_{j} p_{l} (1 - M_{i j}) (1 - M_{i l}) (1 - M_{j l}) .

$Q_3 = \sum_{i,j,l} p_i p_j p_l (1 - M_{i j}) (1 - M_{i l}) (1 - M_{j l}).$

Q_{2}

$Q_2$

M_{i l}

$M_{i l}$

M_{j l}

$M_{j l}$

i, j

$i,j$

Q_{m + 1}

$Q_{m+1}$

Q_{m}

$Q_m$

2

$2$

m

$m$ Tridimensional de conjuntos possíveis de pessoas de estados mutuamente exclusivos, com o coeficiente apropriado nos dizendo quantas maneiras isso pode acontecer. Por exemplo, no caso de três pessoas em que , e são todos diferentes, existem maneiras pelas quais os estados , e podem aparecer através das três amostras.

i

$i$

j

$j$

l

$l$

3! = 6

$3! = 6$

i

$i$

j

$j$

l

$l$

Para pessoas, A segunda linha reduz de uma soma em termos de para uma soma em termos, que ainda é muito ruim. Além disso, cada termo envolve um produto acima de fatores. Portanto, no geral, esta é uma computação . Se ignorarmos a adjacência e respondermos à pergunta (a), ela se tornará $m$

\begin{aligned} Q_{m} & = \sum_{i_{1} = 1}^{k} \sum_{i_{2} = 1}^{k} \dots \sum_{i_{m} = 1}^{k} (p_{i_{m}} \prod_{j = 1}^{m - 1} p_{i_{j}} \prod_{l = j + 1}^{m} (1 - M_{i_{j}, i_{l}})) \\ = m! \sum_{i_{1} = 1}^{k - m + 1} \sum_{i_{2} = i_{1} + 1}^{k - m + 2} \dots \sum_{i_{m} = i_{m - 1} + 1}^{k} (p_{i_{m}} \prod_{j = 1}^{m - 1} p_{i_{j}} \prod_{l = j + 1}^{m} (1 - M_{i_{j}, i_{l}})) . \end{aligned}

$\begin{split} Q_m &= \sum_{i_1=1}^k \sum_{i_2=1}^k \cdots \sum_{i_m=1}^k \left( p_{i_m} \prod_{j=1}^{m-1} p_{i_j} \prod_{l=j+1}^m (1 - M_{i_j, i_l}) \right) \\ &= m! \sum_{i_1=1}^{k-m+1} \sum_{i_2=i_1+1}^{k-m+2} \cdots \sum_{i_m=i_{m-1}+1}^k \left( p_{i_m} \prod_{j=1}^{m-1} p_{i_j} \prod_{l=j+1}^m (1 - M_{i_j, i_l}) \right). \end{split}$

k^{m}

$k^m$

(\binom{k}{m})

$k \choose m$

m (m + 1) / 2

$m (m+1)/2$

O ((\binom{k}{m}) m^{2})

$O({k \choose m} m^2)$

O ((\binom{k}{m}) m) .

$O({k \choose m} m).$ Mas talvez você tenha sorte e o valor de cuja probabilidade exceda 50% seja muito pequeno.

m

$m$

— Bridgeburners
fonte

Isso parece correto (embora um pouco decepcionante em sua conclusão). Deixe-me observar um pouco outras respostas em potencial antes de julgar ou aceitar ... Obrigado!

— David G. Stork

É possível resolver isso usando Matrizes de Markov para modelar o processo aleatório de seleção de pessoas. Essa abordagem exige bastante esforço de configuração, mas possui uma maneira estruturada de obter sua resposta.

As matrizes de Markov são usadas para modelar um processo aleatório que pode se mover entre "estados" discretos (para evitar confusão entre os estados dos EUA e os estados de markov, irei me referir aos estados de markov como "Fases").

Nesse contexto, a fase markov é a lista de todos os estados dos quais você escolheu os americanos. Por exemplo, se o primeiro americano for de Washington, a fase será {WA}, e se o próximo americano for do Texas, a fase será {TX, WA}. O pedido em que você escolheu as pessoas é irrelevante, portanto {TX, WA} é a mesma fase que {WA, TX}.

Antes do início da amostragem, começamos na fase {0} em que nenhum americano foi escolhido. Definimos uma única fase {E} (que significa "final") em que você escolheu dois americanos de estados adjacentes, o processo aleatório de escolher americanos continua até que {E} seja alcançado. Continuando da fase {TX, WA}, se o próximo americano for do Oregon, a fase passará para {E}, já que o Oregon fica ao lado de Washington.

{E} é conhecido como "estado absorvente" porque, uma vez que o processo aleatório atinge {E}, ele não pode mudar para uma fase diferente.

Você deve criar uma lista de todas as fases possíveis que podem ocorrer antes de atingir {E}.

Agora você precisa calcular a matriz de Markov para a probabilidade de transição entre estados. Antes de tudo, seja o vetor de probabilidades de amostrar um americano de um estado. Então é a chance de escolher alguém da Flórida. $M$ $P$ $P_{florida}$

As entradas na matriz de Markov são a probabilidade de transição da fase para a fase . Por exemplo, fazer a transição de {WA} para {TX, WA} é . A probabilidade de transição de {WA} para {E} é . E a probabilidade de fazer a transição de {E} para {E} é 1. $M_{ij}$ $i$ $j$ $P_{Texas}$ $P_{Washington}+P_{Idaho}+P_{Oregon}$

Você sempre inicia a amostragem a partir de {0}. Após a amostragem de 1 americano, a probabilidade de estar em {E} é . Após a amostragem de 2 americanos, a probabilidade de estar em {E} é (A matriz M é multiplicada por si mesma e, em seguida, você obtém a probabilidade na linha {0 } e coluna {E}). $M_{\{0\}\{E\}}$ $(MM)_{\{0\}\{E\}}$

Da mesma forma, após a amostragem de três americanos, a probabilidade de estar em {E} é . Você precisa continuar multiplicando M sozinho até que a probabilidade seja pelo menos 50% $(MMM)_{\{0\}\{E\}}$

É preciso muito esforço para encontrar mas quando você tiver isso, é fácil obter o resultado. $M$

— Hugh
fonte

Essa abordagem parece terrivelmente difícil e escala terrivelmente. Para garantir que temos um término, talvez seja necessário incluir sequências de mais ou menos 20 fases (estados dos EUA), das quais existem 47 trilhões de seqüências. Completamente irrealista. Além disso, é preciso testar explicitamente se o término foi atingido em cada etapa. Não existe uma maneira, mais próxima da solução analítica do problema de aniversário "adjacente", que lide apenas com probabilidades e probabilidades condicionais?

— David G. Stork

se na fase {TX, WA}, qual é a probabilidade de transição para {TX, NM}, que está absorvendo, versus a transição para {WA, NM}, que não é? Tudo isso precisa ser desambiguado na definição de espaço de estado (fase). Edit: talvez @ David G. Stork está fazendo uma observação semelhante.

— Mark L. Stone

@Hugh: Por que "A probabilidade de fazer a transição de {WA} para {E} é "? Por exemplo, se você já está em {WA}, por que sua probabilidade importante? E por que a soma, não o produto?

P_{W a s h i n g t o n} + P_{I d a h o} + P_{O r e g o n}

$P_{Washington} + P_{Idaho} + P_{Oregon}$

P_{W a s h i n g t o n}

$P_{Washington}$

— David G. Stork

@ DavidG.Stork Sua segunda pergunta é presumivelmente porque esses são os estados que fazem fronteira com WA e os empates são independentes; portanto, se escolhermos qualquer um desses estados, estaremos prontos. Mas sim, o número de fases de Markov aqui será ridiculamente grande.

— Dougal

@ DavidG.Stork Como Dougal diz que a amostragem termina se você escolher a segunda pessoa de um estado que faz fronteira com o primeiro (washington), assim você soma as probabilidades de cada estado que faz fronteira com washington.

— Hugh