Ajude-me a calcular quantas pessoas virão ao meu casamento! Posso atribuir uma porcentagem a cada pessoa e adicioná-los?


37

Estou planejando meu casamento. Desejo estimar quantas pessoas virão ao meu casamento. Eu criei uma lista de pessoas e a chance de elas comparecerem em porcentagem. Por exemplo

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

Eu tenho uma lista de cerca de 230 pessoas com porcentagens. Como posso estimar quantas pessoas vão ao meu casamento? Posso simplesmente somar as porcentagens e dividi-las por 100? Por exemplo, se eu convido 10 pessoas com 10% de chance de chegar, posso esperar uma pessoa? Se eu convido 20 pessoas com 50% de chance de comparecer, posso esperar 10 pessoas?

ATUALIZAÇÃO: 140 pessoas vieram ao meu casamento :). Usando as técnicas descritas abaixo, previ cerca de 150. Não é muito ruim!


43
Não vejo nenhuma figura para a pessoa com quem você está se casando. Essa é a quantidade mais importante.
Nick Cox

6
Eu usei sua técnica para o meu casamento e funcionou bem; previmos cerca de 80 pessoas e conseguimos 85 ou mais. Observo que, depois de ter todas essas pessoas em sua planilha, você também pode usar a mesma planilha para rastrear coisas como para quem você enviou notas de agradecimento e assim por diante.
precisa

2
Relevante: timharford.com/2013/10/guest-list-angst-a-statistical- Approach . Para o que vale a pena, eu escolhi o link para o blog pessoal do autor, mas o artigo é da coluna dele no Financial Times.
21714 Steve Jobs (

@EricLippert Tentei algo semelhante no meu casamento, mas não tive tanto sucesso. Houve uma tempestade muito intensa no dia seguinte e todo mundo <30% com uma hora de viagem ou mais não apareceu.
OSE

3
@ NickCox Também eles se esqueceram deles.
JFA

Respostas:


32

Supondo que as decisões das pessoas convidadas para ir ao casamento sejam independentes, o número de convidados que comparecerão ao casamento pode ser modelado como a soma das variáveis ​​aleatórias de Bernoulli que não têm necessariamente probabilidades idênticas de sucesso. Isso corresponde à distribuição binomial de Poisson .

Seja uma variável aleatória correspondente ao número total de pessoas que comparecerão ao seu casamento dentre pessoas convidadas. O número esperado de participantes é realmente a soma das probabilidades individuais de '' apresentação '' , que é A derivação dos intervalos de confiança não é direta, dada a forma da função de massa de probabilidade . No entanto, eles são fáceis de aproximar com simulações de Monte Carlo .N p i E ( X ) = N i = 1 p i .XNpEu

E(X)=Eu=1 1NpEu.

A figura a seguir mostra um exemplo da distribuição do número de participantes do casamento com base em 10.000 cenários simulados (à direita), usando algumas probabilidades falsas de apresentação para as 230 pessoas convidadas (à esquerda). O código R usado para executar esta simulação é mostrado abaixo; fornece aproximações de intervalos de confiança.

insira a descrição da imagem aqui

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 

11
Uau, isso é fantástico. Que tipo de simulação é exatamente isso?
precisa saber é o seguinte

4
É uma simulação de Monte Carlo
QuantIbex 15/14

Como você transforma o "tamanho do grupo" em número de convidados? Eu tenho uma figura como a sua à esquerda, mas estou sem saber como transformá-la na figura à direita ...
Behacad

Isso é feito nas linhas 11 a 18 do código fornecido na resposta. Para o cenário j, eu gero o número de "apresentações" para cada um dos 20 grupos de probabilidades usando uma distribuição binomial e a probabilidade de aparecer nesse grupo.
precisa saber é o seguinte

18

Como foi apontado, as expectativas simplesmente aumentam.

No entanto, sabendo que a expectativa não é muito útil, você também precisa ter uma noção da provável variação em torno dela.

Você precisa se preocupar com três coisas:

  • variação nos indivíduos em torno de suas expectativas (uma pessoa com 60% de chance de chegar na verdade não atinge sua expectativa; ela está sempre acima ou abaixo dela)

  • dependência entre pessoas. Os casais que podem vir ambos tendem a comparecer ou não. As crianças pequenas não comparecem sem os pais. Em alguns casos, algumas pessoas podem evitar a vinda se souberem que outra pessoa estará lá.

  • erro na estimativa das probabilidades. Essas probabilidades são apenas suposições; convém considerar o efeito de suposições um pouco diferentes (talvez as avaliações de alguém sobre esses números)

O primeiro é passível de cálculo, por aproximação normal ou por simulação. O segundo pode ser simulado sob várias suposições, específicas para as pessoas ou considerando alguma distribuição de dependências. (O terceiro item é mais difícil.)


Editado para responder às perguntas de acompanhamento nos comentários:

Se eu entendo o seu fraseado corretamente, para a família de 4, você tem 50% de chance de cada uma das 4 pessoas ou nenhuma vir. Esse é um número esperado de 2, certamente, mas você também gostaria de ter uma idéia da variabilidade em torno da expectativa. Nesse caso, você provavelmente deseja manter a situação real de 50% de 0/50% de 4.

Se você puder particionar todos em grupos independentes, uma boa primeira aproximação (com muitos desses grupos) seria adicionar os meios e as variações entre os grupos independentes e tratar a soma como normal (talvez com correção de continuidade). Uma abordagem mais precisa seria simular o processo ou calcular a distribuição exatamente via convolução numérica; Embora as duas abordagens sejam diretas, esse é um nível desnecessário de precisão para esta aplicação em particular, já que já existem muitas camadas de aproximação - é como dizer as dimensões de uma sala ao pé mais próximo e calcular a quantidade de tinta necessária ao mililitro mais próximo - a precisão adicional é inútil.

Imagine (por simplicidade), tivemos quatro grupos:

1) grupo A (1 indivíduo) - 70% de chance de comparecimento

2) grupo B (1 indivíduo) - 60% de chance de comparecimento

3) grupo C (família de 4) - 0: 0,5 4: 0,5 (se alguém ficar em casa, ninguém virá)

4) grupo D (casal de 2) - 0: 0,4 1: 0,1 2: 0,5 (ou seja, 50% de chance de ambos, mais 10% de chance de que exatamente um venha, por exemplo, se o outro tiver compromissos de trabalho ou estiver doente)

Em seguida, obtemos os seguintes meios e variações:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Portanto, uma aproximação normal será bastante difícil nesse caso, mas sugeriria que mais de 7 pessoas seriam muito improváveis ​​(da ordem de 5%) e 6 ou menos ocorreriam aproximadamente 75-80% das vezes.

[Uma abordagem mais precisa seria simular o processo, mas no problema completo, e não no exemplo de corte, isso provavelmente é desnecessário, pois já existem tantas camadas de aproximação.]


Depois de ter sua distribuição combinada que incorpora essas dependências de grupo, você poderá aplicar todas as fontes de dependência conjunta geral (como condições meteorológicas severas) - ou pode simplesmente garantir ou mesmo ignorar tais eventualidades, dependendo das circunstâncias .


5
+1 por mencionar dependências. Elas surgem por outros motivos que não os relacionamentos interpessoais, como clima e condições de viagem. Muitos deles induzem correlações positivas - o que amplia a faixa de incerteza. Se as estimativas forem usadas para fornecer logística (refeições, assentos, etc.), avaliar a variação com precisão é valioso. Embora em um pedido de casamento não se possa fazer muito mais do que fazer um palpite, ter uma compreensão qualitativa desses fenômenos estatísticos pode levar a melhores palpites.
whuber

@whuber Bom argumento sobre outras fontes de dependência, como o clima. Em algumas circunstâncias, essas coisas podem facilmente inundar os efeitos que mencionei.
Glen_b -Reinstala Monica

Como eu poderia facilmente levar em conta a dependência? Por exemplo, se eu conheço um casal com dois filhos, e espero que os pais tenham cerca de 50% de chance de vir. Eu sei que eles trarão seus filhos se eles vierem. É salvo atribuir 50% a cada pessoa e, basicamente, supor que duas pessoas estão chegando?
precisa saber é o seguinte

2
@ Behacad: Se você sabe que é uma questão de tudo ou nada com um determinado grupo, você pode apenas estimar a probabilidade do grupo vir como uma única unidade e ponderar o grupo pelo número de indivíduos nele. Concordo que também seria bom incluir margens de erro em suas estimativas.
perfil completo de Nick Stauner

Obrigado. Eu tenho uma pequena mesa com porcentagens e quantidade de pessoas com essa porcentagem, mas não sei exatamente o que fazer agora. Quais meios devo adicionar? Quais variações? (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% -9)
Behacad 14/04

5

(Ignore meu comentário anterior sobre isso - acabei de perceber que estava confundindo a expectativa com outra coisa.) Como você está essencialmente tentando encontrar a expectativa do número de pessoas que aparecem, é possível adicionar teoricamente a probabilidade de cada pessoa mostrar pronto para fazê-lo.

0 01 1

No entanto, isso fornece apenas o valor esperado - sem outras suposições, parece difícil estimar coisas como a variação de pessoas que aparecem, particularmente porque é bastante justo supor que a pessoa A que aparece não é necessariamente independente da pessoa B que aparece.

Além disso, aqui está um artigo da BBC vagamente relevante.


Obrigado! Então, só para confirmar, se acho que 10 pessoas têm 10% de chance de chegar, posso supor que uma pessoa venha, por exemplo.
precisa saber é o seguinte

Em teoria, sim, mas parece difícil construir algo mais útil (por exemplo, intervalos de confiança) sem outras suposições.

Obrigado. Como eu poderia chegar a intervalos de confiança?
Behacad

Que eu não tenho certeza absoluta por vários motivos. (Eu provavelmente tem que gastar mais tempo olhando para cima algumas coisas para dar mais de uma resposta detalhada sobre isso.)

4

Para grandes números, 80% é o que você esperaria. Pode ser uma situação em que uma análise detalhada proposta inclua apenas erros nos cálculos.
Por exemplo, o comparecimento potencial de Marc é realmente 1/3 do de Joseph? E Joseph é realmente 30%, ou pode ser 25%? As coisas acontecem quando você alcança grandes números que simplesmente tornam 80% mais válidos do que toda essa análise. Acabei de voltar de um casamento. 550 convidados. 452 compareceram. Para planejar o salão e começar a conversar com o fornecedor, a estimativa inicial de 440 foi boa.

Posso oferecer uma linha da minha torrada para o casal? "Lembre-se, se sua esposa é feliz, mas você não é feliz, você ainda é muito mais feliz do que se sua esposa é infeliz, mas você é feliz."


Obrigado! Uma preocupação é que as pessoas venham de todas as partes e de distâncias variadas. Alguns bem distantes, outros na mesma rua.
precisa saber é o seguinte

3
Esta figura pode ser dependente da cultura.
Juho Kokkala

@ Juho - pode ser. Estou nos EUA e, no meu exemplo recente, foi um casamento de destino para cerca de metade dos convidados, ou seja, o casamento foi na cidade natal da noiva. Eu me pergunto que diferenças culturais afetariam a participação, mas suspeito que você esteja certo.
JTP - desculpe-se com Monica

4
Este é um exemplo maravilhoso de um estimador que existe na teoria, mas parece incomum na prática (até você procurar esse tipo de coisa): dado qualquer conjunto de dados, ele retorna um número predeterminado (80%, neste caso). É fácil de calcular, muito barato (os custos de coleta de dados podem ser reduzidos a zero) e tem variação zero. É Bayes (para um atômico anterior) e admissível. Ainda haverá questões incômodas sobre seu viés e consistência que podem ser difíceis de resolver e não desaparecem, evitando uma "análise detalhada".
whuber

2

Como estatístico que acabou de se casar, vou lhe dizer que JoeTaxpayer tem a resposta certa. O número de 80% me parece um pouco alto, embora possa ser preciso se a maioria das pessoas for local (o nosso foi um casamento de destino e chegamos perto de 65%).

Mas, no entanto, você está assumindo muita variabilidade nas probabilidades anteriores às quais as pessoas assistem, acho que existe mais do que realmente existe. Supondo que você não convide pessoas que não gostam de você ativamente, você deve assumir que quase todo mundo virá para quem está ao seu alcance e eles não terão um conflito (em um sentido amplo), mas pelo menos 10 a 20% Terá algo que os impede de participar. Para quem precisa viajar, isso aumenta o tempo e o dinheiro necessários para que 30-35% dos viajantes não atendam (dependendo da distância). Caso contrário, mantenha as probabilidades constantes (mesmo que seus pais digam "ah, o tal não vai voar até Austin, só queremos convidá-los ..."). Se você está tendo uma recepção divertida, especialmente com um bar aberto, as pessoas geralmente não a ignoram, a menos que tenham que fazê-lo.

De qualquer forma, parabéns por se casar. Agora, quanto à probabilidade de você continuar casado, esta é sempre uma boa leitura: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf

:-)


1

Adicione todas as probabilidades, esse é o número esperado de pessoas que virão.

PEuEu1 1EuPEu1 1Eu

Obviamente, estamos assumindo que se alguém vem ou não, não depende da presença de outras pessoas. Esta suposição está simplesmente errada. Considere casais, eles são altamente correlacionados.

2×1 1EuPEuPEu


1

Para o meu casamento, fiz duas listas - com probabilidade de participar (80%) e improvável de participar (20%). Independentemente de qualquer avaliação mais refinada, por qualquer motivo, designei todos os convidados para um dos dois grupos. Eu estava fora por 2 pessoas. N = 1. Puramente heurístico.


Posso perguntar? Qual foi a% final de participação?
JTP

72% responderam que sim, mas esqueço quantos dias de cancelamento.
22614

0

Percebo que ninguém apontou que você não precisa dividir por 100. Suas porcentagens podem ser vistas como partes esperadas de uma pessoa, com o entendimento de que, como o gato de Schrödinger, você não receberá partes de uma pessoa em presença ou não, mas o estado de presença de cada pessoa será totalmente resolvido no momento do evento.

Como o intervalo de suas porcentagens varia de 0% (nenhuma pessoa aparece) a 100% (toda a pessoa aparece), em seus dois exemplos envolvendo 10 e 20 pessoas, você resumiu o valor esperado para a parte de cada pessoa para aparecer e conseguiu um número cujas unidades eram "pessoas".

A equação de destaque na excelente resposta do QuantIbex mostra que a soma das porcentagens resulta no número esperado de pessoas no evento, sem divisão envolvida.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.