Edição: Tragédia! Minhas suposições iniciais estavam incorretas! (Ou, pelo menos, em dúvida - você confia no que o vendedor está lhe dizendo? Ainda, dê uma dica para Morten também.) O que eu acho que é outra boa introdução às estatísticas, mas a Abordagem de folha parcial agora foi adicionada abaixo ( já que as pessoas pareciam gostar da folha inteira e talvez alguém ainda a ache útil).
Primeiro de tudo, grande problema. Mas gostaria de tornar um pouco mais complicado.
Por isso, antes de fazê-lo, deixe-me um pouco mais simples e diga - o método que você está usando agora é perfeitamente razoável . É barato, é fácil, faz sentido. Portanto, se você tiver que ficar com ele, não deve se sentir mal. Apenas certifique-se de escolher seus pacotes aleatoriamente. E, se você puder pesar tudo de forma confiável (gorjeta ao whuber e ao user777), faça isso.
A razão pela qual eu quero torná-lo um pouco mais complicado é que você já tem - você simplesmente não nos contou sobre toda a complicação, que é a seguinte: contar leva tempo e tempo também é dinheiro . Mas como muito ? Talvez seja mais barato contar tudo!
Então, o que você realmente está fazendo é equilibrar o tempo que leva para contar, com a quantidade de dinheiro que está economizando. (SE, é claro, você só joga este jogo uma vez. Na próxima vez que isso acontecer com o vendedor, ele poderá ter entendido e tentado um novo truque. Na teoria dos jogos, essa é a diferença entre Single Shot Games e Iterated Jogos. Mas, por enquanto, vamos fingir que o vendedor sempre fará a mesma coisa.)
Mais uma coisa antes de eu chegar à estimativa. (E, desculpe-me por escrever tanto e ainda não ter chegado à resposta, mas essa é uma resposta muito boa para o que um estatístico faria? Eles passavam muito tempo se certificando de que entendiam cada pequena parte do problema antes que se sentissem à vontade para dizer algo a respeito.) E essa é uma visão baseada no seguinte:
(EDITAR: SE ELES ESTÃO trapaceando de verdade ...) Seu vendedor não economiza dinheiro removendo etiquetas - ele economiza dinheiro ao não imprimir folhas. Eles não podem vender seus rótulos para outra pessoa (presumo). E talvez, eu não sei e não sei se você sabe, eles não podem imprimir meia folha de suas coisas e metade de outra pessoa. Em outras palavras, antes mesmo de começar a contar, você pode assumir que o número total de marcadores também é 9000, 9100, ... 9900, or 10,000
. É assim que vou abordar isso, por enquanto.
O método de folha inteira
Quando um problema é um pouco complicado como este (discreto e limitado), muitos estatísticos simulam o que pode acontecer. Aqui está o que eu simulei:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Isso fornece a você, supondo que eles estejam usando folhas inteiras, e suas suposições estejam corretas, uma possível distribuição de seus rótulos (na linguagem de programação R).
Então eu fiz isso:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Isso descobre, usando um método "bootstrap", intervalos de confiança usando 4, 5, ... 20 amostras. Em outras palavras, em média, se você usasse N amostras, qual seria o tamanho do seu intervalo de confiança? Uso isso para encontrar um intervalo pequeno o suficiente para decidir o número de folhas, e essa é a minha resposta.
Por "pequeno o suficiente", quero dizer que meu intervalo de confiança de 95% possui apenas um número inteiro - por exemplo, se meu intervalo de confiança era de [93,1, 94,7], eu escolheria 94 como o número correto de folhas, pois sabemos é um número inteiro.
OUTRA dificuldade - sua confiança depende da verdade . Se você tem 90 folhas e cada pilha tem 90 etiquetas, converge muito rápido. Mesmo com 100 folhas. Então, olhei para 95 folhas, onde há maior incerteza, e descobri que, para ter 95% de certeza, você precisa de cerca de 15 amostras, em média. Então, digamos que no geral, você queira colher 15 amostras, porque nunca sabe o que realmente está lá.
Depois de saber quantas amostras você precisa, você sabe que suas economias esperadas são:
100Nmissing−15c
onde é o custo de contar uma pilha. Se você presumir que há uma chance igual de todos os números entre 0 e 10 estarem ausentes, suas economias esperadas são de c $. Mas, e aqui está o ponto de fazer a equação - você também pode otimizá-la, trocar sua confiança pelo número de amostras necessárias. Se você concorda com a confiança que cinco amostras lhe dão, também pode calcular quanto ganhará lá. (E você pode brincar com esse código, para descobrir isso.)500 - 15 ∗c500−15∗
Mas você também deve cobrar do cara por fazer todo esse trabalho!
(EDIT: ADICIONADO!) A Abordagem Parcial de Folha
Ok, então vamos supor que o que o fabricante está dizendo é verdadeiro e não é intencional - algumas etiquetas são perdidas em todas as folhas. Você ainda quer saber sobre quantos rótulos, em geral?
Esse problema é diferente porque você não tem mais uma boa decisão limpa que pode tomar - isso foi uma vantagem para a suposição de Folha inteira. Antes, havia apenas 11 respostas possíveis - agora, são 1100, e obter um intervalo de confiança de 95% sobre exatamente quantas etiquetas existem provavelmente vai levar muito mais amostras do que você deseja. Então, vamos ver se podemos pensar sobre isso de forma diferente.
Como se trata realmente de você tomar uma decisão, ainda faltam alguns parâmetros - quanto dinheiro você está disposto a perder, em um único negócio, e quanto custa para contar uma pilha. Mas deixe-me configurar o que você poderia fazer, com esses números.
Simulando novamente (embora adote o user777 se você puder fazê-lo sem!), É informativo observar o tamanho dos intervalos ao usar diferentes números de amostras. Isso pode ser feito assim:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Que assume (desta vez) que cada pilha possui um número aleatório uniforme de rótulos entre 90 e 100 e fornece:
Obviamente, se as coisas realmente parecessem ter sido simuladas, a verdadeira média seria de cerca de 95 amostras por pilha, menor do que a verdade parece ser - esse é um argumento de fato para a abordagem bayesiana. No entanto, ele fornece uma noção útil de quanto mais você está certo sobre a sua resposta, à medida que continua a provar - e agora pode explicitamente compensar o custo da amostragem com qualquer acordo que você tenha sobre preços.
O que eu sei até agora, estamos todos muito curiosos para saber.