Fiquei me perguntando se existe uma maneira de dizer a probabilidade de algo falhar (um produto) se tivermos 100.000 produtos em campo por 1 ano e sem falhas? Qual é a probabilidade de um dos próximos 10.000 produtos vendidos falhar?
Fiquei me perguntando se existe uma maneira de dizer a probabilidade de algo falhar (um produto) se tivermos 100.000 produtos em campo por 1 ano e sem falhas? Qual é a probabilidade de um dos próximos 10.000 produtos vendidos falhar?
Respostas:
A probabilidade de um produto falhar certamente é uma função do tempo e do uso. Não temos dados de uso e, com apenas um ano, não há falhas (parabéns!). Portanto, esse aspecto (chamado de função de sobrevivência ) não pode ser estimado a partir de seus dados.
Você pode pensar em falhas dentro de um ano como resultado de uma distribuição binomial , no entanto. Você ainda não tem falhas, mas agora esse é um problema comum. Uma solução simples é usar a regra 3 , que é precisa com grande (que você certamente possui). Especificamente, você pode obter o limite superior de uma unilateral de 95% intervalo de confiança (ou seja, o limite inferior é ) sobre a verdadeira probabilidade de falha dentro de um ano como . No seu caso, você tem 95% de confiança de que a taxa é menor que . 0 3 / N 0,00003
Você também perguntou como calcular a probabilidade de um ou mais dos próximos 10k falharem. Uma maneira rápida e simples (embora extrema) de estender a análise acima é usar apenas o limite superior como a probabilidade subjacente e usar o CDF binomial correspondente para obter a probabilidade de que não haverá falhas. Usando o código, poderíamos fazer :, o que gera uma chance de ver uma ou mais falhas nos próximos 10 mil produtos. Ao usar o limite superior, essa não é a estimativa de ponto ideal da probabilidade de ter pelo menos uma falha. Em vez disso, você pode dizer que é muito improvável que a probabilidade de falha seja superior a≥ 1 ≈ 26 % ( M + 1 ) / ( N + 2 ) F p = 9,9998 × 10 - 06 1 + ≈ 10 %R
1-pbinom(0, size=10000, prob=0.00003)
0.2591851
(reconhecendo que esse é um enquadramento um tanto "ondulado à mão"). Outra possibilidade é usar a sugestão da estimativa de @ amoeba da regra de sucessão de Laplace . A regra de sucessão afirma que a probabilidade estimada de falha é , onde é o número de falhas. Nesse caso, , e o cálculo para a probabilidade prevista de falhas nas próximas 10.000 é , produzindo , ou . 1-pbinom(0, size=10000, prob=9.9998e-06)
0.09516122
Você pode adotar uma abordagem bayesiana. denote a probabilidade de falha por e pense nela como uma variável aleatória. A priori, antes de ver os resultados dos experimentos, você pode acreditar que Θ ~ U ( 0 , 1 ) . Se você confiar os engenheiros para fazer confiável este produto, talvez você pode tomar Θ ~ U ( 0 , 0,1 ) ou assim. Isso é com você. Então, você pode usar o teorema de Bayes para calcular a distribuição posterior de θ . Denote A o evento que você observou ( n experimentos com zero falhas).
Tudo é simples:Θé uniforme, entãop(θ)é uma constante. Como você executanexperimentos,p(A|θ)é apenas a probabilidade de não haverfalhasemnensaios de bernouli com probabilidade de falhaθ.
Depois de ter você é ouro: pode calcular a probabilidade de qualquer evento B por integração: P ( B ) = ∫ p ( B | θ ) p ( θ | A ) d θ
Abaixo, trabalho com uma solução detalhada, seguindo a abordagem acima. Vou pegar alguns atalhos padrão.
Seja o anterior . Então: p ( θ | A ) ∝ p ( A | θ ) ⋅ 1 = ( 1 - θ ) n . A constante de normalização p ( A ) = ∫ p ( A | θ ) p ( θ ) d θ é B ( 1 , n
Denotar a probabilidade de nenhuma falha em produtos no próximo ano por B . A probabilidade de pelo menos uma falha é 1 - P ( B ) . Então 1 - P ( B ) = 1 - ∫ ( 1 - θ ) m ( 1 - θ ) n
que é cerca de , utilizando-se n = 100 , 000 , m = 10 , 000 . Não é muito impressionante? Tomei uma distribuição uniforme sobre a probabilidade de falha. Talvez você tenha uma fé anterior melhor em seus engenheiros.
Em vez de calcular uma probabilidade, por que não prever quantos produtos podem falhar?
Fórmulas comparáveis podem ser usadas para o cálculo quando
Um limite superior de previsão (UPL) para o número de falhas nos últimos tickets, , é dado pelo menor (dependendo de ) para o qual .
A UPL deve ser interpretada em termos do risco de usar , conforme avaliado antes de ou serem observados. Em outras palavras, suponha que seja um ano atrás e você esteja sendo solicitado a recomendar um procedimento para prever o número de falhas nos próximos produtos, assim que o primeiro for observado. Seu cliente pergunta
Qual é a chance de seu procedimento subestimar ? Não quero dizer no futuro depois que você tiver mais dados; Quero dizer agora, porque tenho que tomar decisões agora e as únicas chances que terei à minha disposição são as que podem ser computadas neste momento. "
Sua resposta pode ser,
No momento, a chance não é maior que , mas se você planeja usar uma previsão menor, a chance excederá .
Para , e podemos calcular que
Assim, ao observar ,
Para até confiança (ou seja, quando ), preveja que haja no máximo falha nos próximos produtos.
Para até confiança (ou seja, quando ), preveja que haja no máximo falhas nos próximos produtos.
Etc.
Quando e por que essa abordagem se aplicaria? Suponha que sua empresa produz muitos produtos diferentes. Depois de observar o desempenho de de cada um no campo, ele gosta de produzir garantias, como "substituição completa gratuita de qualquer falha dentro de um ano". Por ter limites de previsão para o número de falhas, você pode controlar os custos totais de ter que fazer backup dessas garantias. Como você fabrica muitos produtos e espera que as falhas ocorram devido a circunstâncias aleatórias fora do seu controle, a experiência de cada produto será independente. Faz sentido controlar seu risco a longo prazo. De vez em quando, talvez você precise pagar mais solicitações do que o esperado, mas na maioria das vezes pagará menos. Se pagar mais do que o anunciado puder ser arruinador, você definirá como extremamente pequeno (e provavelmente usará também um modelo de falha mais sofisticado!). Caso contrário, se os custos forem pequenos, você poderá viver com baixa confiança (alto ). Esses cálculos mostram como equilibrar confiança e riscos.
Observe que não precisamos calcular o procedimento completo . Esperamos até que seja observado e, em seguida, apenas realizamos os cálculos para esse particular (aqui, ), como mostrado acima. Em princípio, porém, poderíamos ter realizado os cálculos para todos os valores possíveis de desde o início.
Uma abordagem bayesiana (descrita em outras respostas) é atraente e funcionará bem, desde que os resultados não dependam muito do anterior. Infelizmente, quando a taxa de falhas é tão baixa que poucas (ou nenhuma falha) são observadas, os resultados são sensíveis à escolha da opção anterior.
A seguir, é apresentada uma resposta bayesiana a "De 10.000 novos produtos, quantos deverão falhar se todos os 100.000 produzidos não falharem?", Mas considere a sensibilidade a diferentes anteriores.
Suponha que sejam condicionalmente independentes e distribuídos de forma idêntica, dados , de modo que e use o conjugado anterior , com .
Para , temos
Para , temos em que usamos .
Ao conectar seus números, com um uniforme anterior ( ), você espera uma taxa de falhas em torno de , enquanto um anterior semelhante a Jeffreys ( ) fornece uma taxa de falhas próxima a .
Essa expectativa preditiva não parece um bom resumo, porque a distribuição preditiva é altamente distorcida. Podemos ir além e calcular a distribuição preditiva. Como condicionando como fizemos antes de começarmos para .
Terminarei mais tarde calculando um intervalo preditivo de .
Usando a abordagem do problema do nascer do sol de Laplace , obtemos a probabilidade de um produto falhar dentro de um ano . Em seguida, a probabilidade de que novos produtos não falhem dentro de um ano é Portanto, a probabilidade de pelo menos um produto de falhar no próximo ano é Para o valor é . No caso de whuber, , bastante alto, de fato.
Obviamente, você deve continuar atualizando seus dados enquanto mais produtos são vendidos, eventualmente um falhará.
Várias boas respostas foram fornecidas para essa pergunta, mas recentemente tive a oportunidade de revisar poucos recursos sobre esse tópico e, por isso, decidi compartilhar os resultados.
Existem vários estimadores possíveis para dados com zero falhas. Vamos denotar como número de falhas como tamanho da amostra. O estimador de probabilidade máxima para probabilidade de falha, considerando esses dados, é
Essa estimativa é bastante insatisfatória, pois o fato de não termos observado falhas em nossa amostra dificilmente prova que elas são impossíveis em geral. O conhecimento fora dos dados sugere que há alguma probabilidade de falha, mesmo que não tenha sido observado (ainda). Ter conhecimento a priori nos leva a usar métodos bayesianos revisados por Bailey (1997), Razzaghi (2002), Basu et al (1996) e Ludbrook e Lew (2009).
Entre os estimadores simples, estimador de "limite superior" que assume (Bailey, 1997)
que não seria lógico que um estimador para P, no caso de falha zero, produza uma probabilidade superior à prevista pelo estimador de probabilidade máxima no caso de falha única, um limite superior razoável
definido como
pode ser mencionado. Como revisado por Ludbrook e Lew (2009), outras possibilidades são "regra dos três" (cf. aqui , Wikipedia ou Eypasch et al, 1995)
ou outras variações:
"regra de 3,7" por Newcombe e Altman (ou por 3,6):
"nova regra de quatro":
mas, conforme concluído por Ludbrook e Lew (2009), a "regra dos três" é "quase inútil" e a "regra dos 3,6" (e 3,7) "tem sérias limitações - elas são imprecisas se o tamanho da amostra inicial for menor que 50" e eles não recomendam os métodos (3) - (6), sugerindo o uso de estimadores Bayesianos adequados (veja abaixo).
Entre os estimadores bayesianos, vários diferentes podem ser mencionados. Primeiro, esse estimador sugerido por Bailey (1997) é
para estimar a mediana sob uniforme anterior
ou para estimar a média de acordo com tais
ainda outra abordagem assumindo padrão de falha exponencial com taxa de falha constante (distribuições de Poisson) produz
Se usamos beta antes com parâmetros de e podemos usar a fórmula (ver Razzaghi, 2002):
que sob leva ao uniforme anterior (9). Supondo que Jeffreys anterior com isso leva a
Geralmente, as fórmulas bayesianas (7) - (12) são recomendadas. Basu et al (1996) recomenda (11) com informações prévias, quando algum conhecimento a priori estiver disponível. Como não existe um melhor método, sugiro que reveja a literatura antes de sua análise, especialmente quando for pequeno.
Bailey, RT (1997). Estimativa a partir de dados com falha zero. Risk Analysis, 17 , 375-380.
Razzaghi, M. (2002). Na estimativa da probabilidade de sucesso binomial com ocorrência zero na amostra. Jornal de Métodos Estatísticos Aplicados Modernos, 1 (2), 41.
Ludbrook, J. & Lew, MJ (2009). Estimando o risco de complicações raras: a 'regra dos três' é boa o suficiente ?. Anz journal of surgery, 79 (7‐8), 565-570.
Eypasch, E., Lefering, R., Kum, CK e Troidl, H. (1995). Probabilidade de eventos adversos que ainda não ocorreram: Um lembrete estatístico. BMJ 311 (7005): 619-620.
Basu, AP, Gaylor, DW e Chen, JJ (1996). Estimando a probabilidade de ocorrência de tumor para um câncer raro com zero ocorrência em uma amostra. Regulatory Toxicology and Pharmacology, 23 (2), 139-144.
Você realmente precisa voltar para os designers de seus produtos. É um problema de engenharia fundamental e não estatístico observacional. Eles terão uma idéia da probabilidade de falha de cada componente e, a partir disso, a probabilidade líquida de falha do produto total montado. Eles podem fornecer o número esperado de falhas ao longo de toda a vida útil do produto.
Um engenheiro civil projeta uma ponte para ter uma vida útil de 120 anos. Cada componente da ponte tem uma pequena chance de falha. Cada carregamento tem uma pequena chance de ser excedido. Para tornar a ponte econômica de construir, o colapso total ocorreria apenas uma vez em 2400 anos, muito mais do que a ponte será mantida. Não é de surpreender que a ponte não falhe no ano 1, nem no ano 2 ao ano 120. Isso não entrou em colapso, diz muito pouco. Suas várias chances de falha com o tempo só podem ser estimadas pelos designers originais.
Isso é semelhante a um problema que enfrentei quando introduzimos um novo processo de fabricação para eliminar uma falha na produção.
O novo sistema não produziu falhas e as pessoas estavam fazendo a mesma pergunta: como podemos prever a taxa de falhas? No seu caso, como você estipulou um período durante o qual a falha pode ocorrer sem preocupação com a ocorrência da falha nesse período, os efeitos temporais foram removidos. E é simplesmente um caso de algo ter falhado ou não. Com isso estipulado - com a minha resposta.
Intuitivamente, parece que precisamos de pelo menos uma falha para poder calcular a taxa de falhas. No entanto, essa suposição tem um erro implícito. Nunca calcularemos a taxa de falhas. Isso é porque estamos lidando com uma amostra. Assim, podemos estimar apenas uma faixa de taxas prováveis de falhas. A maneira de fazer isso é encontrar uma distribuição para a taxa de falhas. A distribuição que executa o trabalho nesta instância é uma distribuição Beta, na qual os parâmetros são: α = n + 1 e β = N - n + 1
Nota: N é o tamanho da amostra e n é o número de falhas (no seu caso 0)
Para o seu cenário, a distribuição da taxa de falhas é mostrada abaixo. .
Você alimentaria essa distribuição na fórmula de probabilidade binomial respectiva para obter uma distribuição para a probabilidade de uma unidade falhar (poderia ser feita analiticamente ou usando Monte Carlo). Eu suspeito que os números serão muito baixos.
Observe que esse processo é aplicável, independentemente do número de falhas em seu primeiro conjunto.