Inspirado na palestra de Peter Donnelly no TED , na qual ele discute quanto tempo levaria para um determinado padrão aparecer em uma série de lançamentos de moedas, criei o seguinte script em R. Dado dois padrões 'hth' e 'htt', calcula quanto tempo leva (ou seja, quantas moedas jogam) em média antes de você atingir um desses padrões.
coin <- c('h','t')
hit <- function(seq) {
miss <- TRUE
fail <- 3
trp <- sample(coin,3,replace=T)
while (miss) {
if (all(seq == trp)) {
miss <- FALSE
}
else {
trp <- c(trp[2],trp[3],sample(coin,1,T))
fail <- fail + 1
}
}
return(fail)
}
n <- 5000
trials <- data.frame("hth"=rep(NA,n),"htt"=rep(NA,n))
hth <- c('h','t','h')
htt <- c('h','t','t')
set.seed(4321)
for (i in 1:n) {
trials[i,] <- c(hit(hth),hit(htt))
}
summary(trials)
As estatísticas de resumo são as seguintes,
hth htt
Min. : 3.00 Min. : 3.000
1st Qu.: 4.00 1st Qu.: 5.000
Median : 8.00 Median : 7.000
Mean :10.08 Mean : 8.014
3rd Qu.:13.00 3rd Qu.:10.000
Max. :70.00 Max. :42.000
Na palestra, é explicado que o número médio de lançamentos de moedas seria diferente para os dois padrões; como pode ser visto na minha simulação. Apesar de assistir à palestra algumas vezes, ainda não estou entendendo por que esse seria o caso. Entendo que 'hth' se sobrepõe a si próprio e, intuitivamente, eu pensaria que você digitaria 'hth' antes de 'htt', mas esse não é o caso. Eu realmente apreciaria se alguém pudesse me explicar isso.