Este é um exercício para usar variáveis indicadoras. Um indicador tem o valor para indicar que alguma condição é válida e, caso contrário, tem o valor . Problemas aparentemente difíceis sobre probabilidade e expectativa podem ter soluções simples que exploram indicadores e linearidade de expectativa - mesmo quando as variáveis aleatórias envolvidas não são independentes. Para aqueles que são novos nessas idéias, detalhes completos são fornecidos abaixo.1 10 0
Ligue para os engenheiros "X" e "Y". Seleção do modelo X por meio de variáveis indicadoras , onde17XEu, i = 1 , 2 , … , 17
{Xi=1Xi=0 when X selects i otherwise.
Da mesma forma, defina as variáveis indicadoras para a seleção de Y.Yi
Podemos expressar as condições no problema algebricamente:
- O indicador que é selecionado por ambos é .iXiYi
- O indicador que está selecionado por nenhum deles é .i(1−Xi)(1−Yi)
- O indicador de que é selecionado apenas por X é .iXi(1−Yi)
- O indicador de que é selecionado apenas por Y é .i(1−Xi)Yi
O número total selecionado por éX
4=X1+X2+⋯+X17=∑i=117Xi.
Claramente, todas as variáveis são identicamente distribuídas. Vamos ser a sua expectativa comum. Porque34μ
4=E[4]=E[∑i=117Xi]=∑i=117E[Xi]=∑i=117μ=17μ,
nós deduzimos
μ=417.
Embora as variáveis não sejam independentes, o é assumido independente do .XiYi
uma. Número esperado de itens selecionados por ambos
O número total de itens selecionados por ambos é a soma do . Assim, o número esperado éXiYi
E[∑i=117XiYi]=∑i=117E[XiYi]=∑i=117E[Xi]E[Yi]=∑i=117417417=4217.
A independência de e era necessária para expressar cada como o produto de e .XiYiE[XiYi]E[Xi]E[Yi]
b. Número esperado de itens selecionados por nenhum
O número total de itens selecionados por nenhum dos dois é a soma de . Como todos os são independentes de todos os , exatamente o mesmo método usado em (a) se aplica; a única alteração é que é substituído por . O valor deve ser(1−Xi)(1−Yi)1−Xi1−Yi4/17E[1−Xi]=E[1−Yi]=13/17
E[∑i=117(1−Xi)(1−Yi)]=13217.
c. Número esperado de itens selecionados por exatamente um
Isso pode ser resolvido como em (a) ou (b), dando como a chance de ser selecionado apenas por X e como a chance de ser selecionado apenas por Y. A resposta é a soma desses eventos (disjuntos), iguais a .4/17×13/17=52/1713/17×4/17=52/17104/17
Um atalho (ou cheque do trabalho) é a nota que cada item cai exatamente uma das categorias tanto , nem , ou exatamente um , e, portanto, a resposta deve ser a diferença entre o total ( ) e a soma das respostas a (a) e (b):17
17−4217−13217=10417.
Verificar via simulação
Vamos realizar 10.000 (digamos) simulações dessas seleções e acompanhar os resultados. Podemos produzir (a) o número médio de itens selecionados por ambos, (b) o número médio de itens selecionados por nenhum dos dois e (c) o número médio de itens selecionados por exatamente um. Abaixo desta saída, como referência, vamos imprimir as respostas dadas em (a), (b) e (c). Não tentaremos ser eficientes: o objetivo é modelar o processo de seleção conforme descrito e contar os eventos diretamente, sem truques aritméticos. Aqui está um R
código que faz isso de uma maneira bastante perspicaz e ainda leva apenas cerca de um segundo:
n.sim <- 1e4 # Number of iterations
n <- 17 # Number of items
k <- 4 # Numbers chosen by each engineer
set.seed(17) # Creates reproducible output
sim <- replicate(n.sim, {
x <- sample.int(n, k) # X chooses `k` items
y <- sample.int(n, k) # Y chooses 'k' items
x.and.y <- intersect(x,y) # Find those chosen by both
not.x.and.not.y <- setdiff(1:n, union(x,y)) # ... .... chosen by neither
x.only <- setdiff(x, y) # ... .... chosen only by x
y.only <- setdiff(y, x) # ... .... chosen only by y
c(Both=length(x.and.y), # Count those chosen by both
Neither=length(not.x.and.not.y), # Count those chosen by neither
One=length(x.only) + length(y.only) # Count those chosen by one
)
})
signif(rbind(Simulation=rowMeans(sim), # Average the simulations
Theory=c(k^2/n, (n-k)^2/n, n-(k^2+(n-k)^2)/n)), 4) # Give theoretical values
As duas linhas de saída - média em muitas tentativas simuladas e respostas teóricas fornecidas anteriormente - são próximas o suficiente para apoiar a correção das respostas:
Both Neither One
Simulation 0.9315 9.932 6.137
Theory 0.9412 9.941 6.118