Combinando probabilidades / informações de diferentes fontes

26

Digamos que eu tenho três fontes independentes e cada uma delas faz previsões para o clima de amanhã. O primeiro diz que a probabilidade de chuva amanhã é 0, depois o segundo diz que a probabilidade é 1 e, finalmente, o último diz que a probabilidade é de 50%. Eu gostaria de saber a probabilidade total dada essa informação.

Se aplicar o teorema da multiplicação para eventos independentes, recebo 0, o que não parece correto. Por que não é possível multiplicar as três se todas as fontes são independentes? Existe alguma maneira bayesiana de atualizar o anterior à medida que obtenho novas informações?

Nota: Isso não é lição de casa, é algo em que eu estava pensando.

— Biela Diela
fonte

11

Você sabe quão confiável das fontes independentes são

— Dilip Sarwate

Não, a priori, eu assumiria que todas as fontes são igualmente confiáveis.

— Biela Diela

3

Esta é uma boa pergunta em que estou pensando também. Eu acrescentaria a segunda pergunta: se todas as previsões fossem 0,75, qual seria a probabilidade combinada? Maior que 0,75? Qual seria uma estrutura formal para analisar esse tipo de perguntas?

— Karsten W.

2

Não há realmente informações suficientes; precisamos de um modelo de como as previsões devem se relacionar com a realidade.

— Glen_b -Reinstala Monica

Não tenho muita certeza do significado de "todas as fontes são igualmente confiáveis" quando as fontes fornecem declarações sobre probabilidades ou níveis de confiança / confiança. Se estamos falando da probabilidade de uma certa probabilidade ter um determinado valor que parece trazer problemas conceituais. BTW, se as fontes 1 e 2 são igualmente confiáveis, ambas devem estar corretas com probabilidade de 0,50 ... (e a probabilidade de chuva é de 1/2).

— AG

32

Você pergunta sobre três coisas: (a) como combinar várias previsões para obter uma única previsão, (b) se a abordagem bayesiana pode ser usada aqui e (c) como lidar com probabilidades zero.

Combinar previsões é uma prática comum . Se você tiver várias previsões do que se calcular a média dessas previsões, a previsão combinada resultante deverá ser melhor em termos de precisão do que qualquer uma das previsões individuais. Para calculá-las, você pode usar a média ponderada, onde os pesos são baseados em erros inversos (ou seja, precisão) ou no conteúdo da informação . Se você tivesse conhecimento sobre a confiabilidade de cada fonte, poderia atribuir pesos proporcionais à confiabilidade de cada fonte, para que fontes mais confiáveis tenham maior impacto na previsão final combinada. No seu caso, você não tem nenhum conhecimento sobre a confiabilidade deles, de modo que cada uma das previsões tenha o mesmo peso e possa usar a média aritmética simples das três previsões

0 % \times .33 + 50 % \times .33 + 100 % \times .33 = (0 % + 50 % + 100 %) / 3 = 50 %

$0\%\times.33+50\%\times.33+100\%\times.33 = (0\%+50\%+100\%)/3=50\%$

Como foi sugerido nos comentários de @AndyW e @ArthurB. , outros métodos além da média ponderada simples estão disponíveis. Muitos desses métodos são descritos na literatura sobre a média de previsões de especialistas, com os quais eu não estava familiarizado antes, então obrigado pessoal. Na média das previsões de especialistas, às vezes, queremos corrigir o fato de que os especialistas tendem a regredir para a média (Baron et al, 2013), ou tornar suas previsões mais extremas (Ariely et al, 2000; Erev et al, 1994). Para conseguir isso, pode-se usar transformações de previsões individuais , por exemplo, função logit $p_i$

\begin{matrix} (1) & l o g i t (p_{i}) = \log (\frac{p_{i}}{1 - p_{i}}) \end{matrix}

$\mathrm{logit}(p_i) = \log\left( \frac{p_i}{1-p_i} \right) \tag{1}$

chances para o poder -ésimo $a$

\begin{matrix} (2) & g (p_{i}) = {(\frac{p_{i}}{1 - p_{i}})}^{a} \end{matrix}

$g(p_i) = \left( \frac{p_i}{1-p_i} \right)^a \tag{2}$

onde , ou transformação mais geral da forma $0 < a < 1$

\begin{matrix} (3) & t (p_{i}) = \frac{p_{i}^{a}}{p_{i}^{a} + (1 - p_{i})^{a}} \end{matrix}

$t(p_i) = \frac{p_i^a}{p_i^a + (1-p_i)^a} \tag{3}$

onde se nenhuma transformação for aplicada, se previsões individuais forem mais extremas, se previsões forem menos extremas, o que é mostrado na figura abaixo (ver Karmarkar, 1978; Baron et al, 2013 ) $a=1$ $a>1$ $0 < a<1$

Após a média dessas previsões de transformação (usando média aritmética, mediana, média ponderada ou outro método). Se as equações (1) ou (2) foram usadas, os resultados precisam ser transformados de volta usando logit inverso para (1) e probabilidades inversas para (2). Alternativamente, a média geométrica pode ser usada (ver Genest e Zidek, 1986; cf. Dietrich e List, 2014)

\begin{matrix} (4) & \hat{p} = \frac{\prod_{i = 1}^{N} p_{i}^{w_{i}}}{\prod_{i = 1}^{N} p_{i}^{w_{i}} + \prod_{i = 1}^{N} (1 - p_{i})^{w_{i}}} \end{matrix}

$\hat p = \frac{ \prod_{i=1}^N p_i^{w_i} }{ \prod_{i=1}^N p_i^{w_i} + \prod_{i=1}^N (1 - p_i)^{w_i} } \tag{4}$

ou abordagem proposta por Satopää et al (2014)

\begin{matrix} (5) & \hat{p} = \frac{{[\prod_{i = 1}^{N} {(\frac{p_{i}}{1 - p_{i}})}^{w_{i}}]}^{a}}{1 + {[\prod_{i = 1}^{N} {(\frac{p_{i}}{1 - p_{i}})}^{w_{i}}]}^{a}} \end{matrix}

$\hat p = \frac{ \left[ \prod_{i=1}^N \left(\frac{p_i}{1-p_i} \right)^{w_i} \right]^a }{ 1 + \left[ \prod_{i=1}^N \left(\frac{p_i}{1-p_i} \right)^{w_i} \right]^a } \tag{5}$

onde são pesos. Na maioria dos casos, pesos iguais são usados, a menos que exista informação a priori que sugira outra opção. Tais métodos são usados na média de previsões de especialistas para corrigir subconfiança ou excesso de confiança. Em outros casos, você deve considerar se a transformação de previsões para mais ou menos extrema é justificada, pois pode fazer com que a estimativa agregada resultante caia fora dos limites marcados pela menor e pela maior previsão individual. $w_i$ $w_i = 1/N$

Se você tem um conhecimento a priori sobre a probabilidade de chuva, pode aplicar o teorema de Bayes para atualizar as previsões, considerando a probabilidade a priori de chuva de maneira semelhante à descrita aqui . Também existe uma abordagem simples que pode ser aplicada, ou seja, calcular a média ponderada de suas previsões (como descrito acima) em que a probabilidade anterior é tratada como ponto de dados adicional com algum peso pré-especificado como neste exemplo do IMDB ( veja também fonte , ou aqui e aqui para discussão; cf. Genest e Schervish, 1985), ie $p_i$ $\pi$ $w_{\pi}$

\begin{matrix} (6) & \hat{p} = \frac{(\sum_{i = 1}^{N} p_{i} w_{i}) + π w_{π}}{(\sum_{i = 1}^{N} w_{i}) + w_{π}} \end{matrix}

$\hat p = \frac{ \left(\sum_{i=1}^N p_i w_i \right) + \pi w_{\pi} }{ \left(\sum_{i=1}^N w_i \right) + w_{\pi} } \tag{6}$

Da sua pergunta, no entanto, não se segue que você tenha conhecimento a priori sobre o seu problema, portanto provavelmente usaria uniforme anterior, ou seja, assumiria a priori chance de chuva e isso realmente não muda muito no caso do exemplo que você forneceu . $50\%$

Para lidar com zeros, existem várias abordagens diferentes possíveis. Primeiro, observe que chance de chuva não é um valor realmente confiável, pois diz que é impossível que chova. Problemas semelhantes costumam ocorrer no processamento de linguagem natural quando, em seus dados, você não observa alguns valores que possivelmente podem ocorrer (por exemplo, você conta frequências de letras e, em seus dados, algumas letras incomuns não ocorrem). Nesse caso, o estimador clássico de probabilidade, ou seja, $0\%$

p_{i} = \frac{n_{i}}{\sum_{i} n_{i}}

$p_i = \frac{n_i}{\sum_i n_i}$

onde é um número de ocorrências de th valor (de categorias), dá-lhe se . Isso é chamado de problema de frequência zero . Para esses valores, você sabe que a probabilidade deles é diferente de zero (eles existem!); Portanto, essa estimativa está obviamente incorreta. Há também uma preocupação prática: multiplicar e dividir por zeros leva a zeros ou resultados indefinidos; portanto, zeros são problemáticos ao lidar com eles. $n_i$ $i$ $d$ $p_i = 0$ $n_i = 0$

A correção fácil e comumente aplicada é adicionar constante às suas contagens, para que $\beta$

p_{i} = \frac{n_{i} + β}{(\sum_{i} n_{i}) + d β}

$p_i = \frac{n_i + \beta}{(\sum_i n_i) + d\beta}$

A escolha comum para é , ou seja, a aplicação uniforme uniforme com base na regra de sucessão de Laplace , para a estimativa de Krichevsky-Trofimov ou para o estimador de Schurmann-Grassberger (1996). Observe, no entanto, que o que você faz aqui é aplicar informações fora de dados (anteriores) em seu modelo, para obter um sabor Bayesiano subjetivo. Ao usar essa abordagem, você deve se lembrar das suposições feitas e levá-las em consideração. O fato de termos um forte conhecimento a priori de que não deve haver nenhuma probabilidade zero em nossos dados justifica diretamente a abordagem bayesiana aqui. No seu caso, você não tem frequências, mas probabilidades, então você adicionaria algumas $\beta$ $1$ $1/2$ $1/d$ valor muito pequeno para corrigir zeros. Observe, no entanto, que em alguns casos essa abordagem pode ter consequências ruins (por exemplo, ao lidar com logs ), portanto, deve ser usada com cautela.

Schurmann, T. e P. Grassberger. (1996). Estimativa de entropia de sequências de símbolos. Caos, 6, 41-427.

Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS e Zauberman, G. (2000). Os efeitos da média da estimativa da probabilidade subjetiva entre e dentro dos juízes. Journal of Experimental Psychology: Applied, 6 (2), 130.

Baron, J., Mellers, BA, Tetlock, PE, Stone, E. e Ungar, LH (2014). Duas razões para tornar as previsões de probabilidade agregadas mais extremas. Decision Analysis, 11 (2), 133-145.

Erev, I., Wallsten, TS e Budescu, DV (1994). Excesso de confiança e subconfiança simultâneos: o papel do erro nos processos de julgamento. Revisão psicológica, 101 (3), 519.

Karmarkar, EUA (1978). Utilidade ponderada subjetivamente: uma extensão descritiva do modelo de utilidade esperado. Comportamento organizacional e desempenho humano, 21 (1), 61-72.

Turner, BM, Steyvers, M., Merkle, CE, Budescu, DV e Wallsten, TS (2014). Agregação de previsão via recalibração. Aprendizado de máquina, 95 (3), 261-289.

Genest, C. e Zidek, JV (1986). Combinando distribuições de probabilidade: uma crítica e uma bibliografia anotada. Statistical Science, 1 , 114–135.

Satopää, VA, Barão, J., Foster, DP, Mellers, BA, Tetlock, PE e Ungar, LH (2014). Combinando várias previsões de probabilidade usando um modelo de logit simples. International Journal of Forecasting, 30 (2), 344-356.

Genest, C. e Schervish, MJ (1985). Modelagem de julgamentos de especialistas para atualização bayesiana. The Annals of Statistics , 1198-1212.

Dietrich, F., e List, C. (2014). Conjunto de Opiniões Probabilísticas. (Não publicado)

— Tim
fonte

2

Eu queria acrescentar isso ao invés de começar uma nova resposta. Outro método bem conhecido é combinar as três (ou N) probabilidades, tomando a média geométrica (e não a média aritmética). Hinton ressalta que isso dá a um modelo com uma probabilidade muito alta ou baixa, o poder de "veto" entre outros, em vez de calcular a média de tudo o que às vezes pode funcionar contra você.

— Zhubarb

Portanto, se as três previsões fossem todas de 75% e nenhuma informação sobre sua confiabilidade estivesse disponível, a previsão final seria de 75%?

— Karsten W.

@KarstenW. sim, por que você esperaria algo diferente? Se você não tem nenhuma informação a priori, que esta é a única informação que você tem, então você tem nenhuma razão para considerar o resultado final ser diferente ...

— Tim

11

Ainda não li nenhum artigo acadêmico de Tetlock, mas eu começaria por aí. Tais como dois motivos para tornar as previsões de probabilidade agregadas mais extremas . Vou procurar as palavras exatas de Phil, posso estar me lembrando mal da palavra extremificar .

— Andy W

11

Eu estava perto do extremo , mas não exatamente. Eu deveria ter usado extremized , veja aqui . Além do Baron et al. No artigo mencionado, Ville Satopää tem algum trabalho sobre o tópico arxiv.org/abs/1506.06405 .

— Andy W

6

Existem duas maneiras de pensar no problema. Uma é dizer que as fontes observam uma versão barulhenta da variável latente "chove / não chove".

$Beta(a+b,a)$ $Beta(a,a+b)$

$a$ $x$ $y$ $z$

p = \frac{1}{1 + {(\frac{1}{x} - 1)}^{b} {(\frac{1}{y} - 1)}^{b} {(\frac{1}{z} - 1)}^{b}}

$p = \frac{1}{1+\left(\frac{1}{x}-1\right)^b\left(\frac{1}{y}-1\right)^b\left(\frac{1}{z}-1\right)^b}$

$b$ $b>1$ $b<1$ $b = 1$

\frac{p}{1 - p} = \frac{x}{1 - x} \frac{y}{1 - y} \frac{z}{1 - z}

$\frac{p}{1-p} = \frac{x}{1-x} \frac{y}{1-y} \frac{z}{1-z}$

$1$ $0$

Esse modelo funciona melhor se você estiver pensando em três pessoas dizendo se choveu ontem ou não. Na prática, sabemos que existe um componente aleatório irredutível no clima e, portanto, pode ser melhor assumir que a natureza escolhe primeiro uma probabilidade de chuva, que é ruidosamente observada pelas fontes, e depois vira uma moeda tendenciosa para decidir se ou não vai chover.

Nesse caso, a estimativa combinada pareceria muito mais com uma média entre as diferentes estimativas.

— Arthur B.
fonte

O que x, y, z seriam nesse modelo?

— Karsten W.

Seriam as três previsões diferentes.

— Arthur B.

x = y = z = \frac{3}{4}

$x = y = z = \frac{3}{4}$

p = \frac{27}{28}

$p = \frac{27}{28}$

\frac{3}{4}

$\frac{3}{4}$

\frac{27}{28}

$\frac{27}{28}$

Ir de 3/4 a 27/28 é um pouco extremo, é como se três pessoas estivessem dizendo a você que o céu é azul escuro e você concluiu que é preto ...

— Tim

Depende do modelo. Aqui, estou assumindo que cada fonte tem uma visão ruidosa de uma variável binária latente, chuva ou não chuva. É como se três pessoas diferentes dissessem que choveu ontem. Você também pode modelar o sistema, pois existe uma probabilidade latente de chuva e as fontes de previsão como uma versão barulhenta dessa previsão.

— Arthur B.

3

Na estrutura do Transferable Belief Model (TBM) , é possível combinar diferentes previsões usando, por exemplo, a "regra conjuntiva de combinação". Para aplicar essa regra, você precisa transformar as probabilidades das previsões em atribuições básicas de crença. Isso pode ser alcançado com o chamado princípio menos comprometido. Em R:

library(ibelief)
#probabilities
p1 <- c(0.99, 0.01) # bad results for 0 and 1
p2 <- c(0.01, 0.99)
p3 <- c(0.5, 0.5)

# basic belief assignment, 
# each row represents a subset of (rain, not rain)
# each column represents one prediction
Mat <- LCPrincple(rbind(p1,p2,p3))

# combine beliefs
m <- DST(Mat, 1)

# resulting probability distribution (pignistic probability)
mtobetp(m)
# returns 0.5 and 0.5

Para o segundo exemplo de três previsões independentes de 0,75, essa abordagem retorna um valor mais alto:

p4 <- c(0.75, 0.25)
Mat <- LCPrincple(rbind(p4,p4,p4))
m <- DST(Mat, 1)
mtobetp(m)
#returns 0.9375 0.0625

Isso não está muito longe da abordagem bayesiana mostrada na resposta de Arthur B.

— Karsten W.
fonte

2

w_{1} = \frac{σ_{2}^{2} σ_{3}^{2}}{σ_{1}^{2} σ_{2}^{2} + σ_{1}^{2} σ_{3}^{2} + σ_{2}^{2} σ_{3}^{2}}, w_{2} = \frac{σ_{1}^{2} σ_{3}^{2}}{σ_{1}^{2} σ_{2}^{2} + σ_{1}^{2} σ_{3}^{2} + σ_{2}^{2} σ_{3}^{2}}, w_{3} = \frac{σ_{1}^{2} σ_{2}^{2}}{σ_{1}^{2} σ_{2}^{2} + σ_{1}^{2} σ_{3}^{2} + σ_{2}^{2} σ_{3}^{2}} .

$w_1 = {{\sigma_2^2 \sigma_3^2} \over {\sigma_1^2 \sigma_2^2 + \sigma_1^2 \sigma_3^2 + \sigma_2^2 \sigma_3^2}},\ w_2 = {{\sigma_1^2 \sigma_3^2} \over {\sigma_1^2 \sigma_2^2 + \sigma_1^2 \sigma_3^2 + \sigma_2^2 \sigma_3^2}},\ w_3 ={{\sigma_1^2 \sigma_2^2} \over {\sigma_1^2 \sigma_2^2 + \sigma_1^2 \sigma_3^2 + \sigma_2^2 \sigma_3^2}}.$

$\frac{1}{3}$

$\sigma_i$ $\sigma_1^2 : \sigma_2^2 : \sigma_3^2 = 1:2:4,$

f = \frac{8}{14} * (0) + \frac{4}{14} * (1) + \frac{2}{14} * (0.5) = 0.3571

$f = { {{8} \over {14}}*(0) + {{4} \over {14}}*(1) + {{2} \over {14}}*(0.5) } = 0.3571$

— Soakley
fonte

1

Seus números de probabilidade de chuva são apenas metade da história, pois teríamos que moderar suas previsões com a probabilidade de serem precisas ao fazer suposições.

Como algo como chuva é mutuamente exclusivo (está chovendo ou não está, nesta configuração), eles não podem estar todos simultaneamente corretos com 75% de probabilidade, como sugeriu Karsten (acho difícil dizer com a confusão que ouvi sobre o que significa para encontrar "probabilidade combinada").

Levando em consideração suas habilidades individuais para prever o clima, poderíamos dar uma facada (a Thomas Bayes, como em um tiro geralmente cego no escuro) sobre qual a chance de chuva amanhã.

A estação 1 está correta em suas previsões em 60% das vezes, nos segundos 30% e na última estação em 10% das vezes.

E [chuva] = Px X + Py Y + Pz * Z é a forma que estamos vendo aqui:

(.6) (0) + (. 3) (1) + (. 1) (. 5) = E [chuva] = 35% de chance de chuva com precisão de previsão inventada.

— Havok
fonte

11

Esse algoritmo pode produzir valores acima de 1. #

— Andy W

1

Há muitas respostas complicadas dadas a essa pergunta, mas e a Média ponderada da variância inversa: https://en.wikipedia.org/wiki/Inverse-variance_weighting

Em vez de n medições repetidas com um instrumento, se o pesquisador fizer n da mesma quantidade com n instrumentos diferentes com qualidade variável de medições ...

Cada variável aleatória é ponderada em proporção inversa à sua variância.

A média ponderada da variância inversa parece muito simples de calcular e, como bônus, tem a menor variação entre todas as médias ponderadas.

— Sorteios
fonte

-1

Para combinar confiabilidade, minha fórmula é r1xr2xr3 ÷ (r1xr2xr3 + (1-r1) x (1-r2) x (1-r3). Portanto, para as 3 fontes de confiabilidade 75%, todas dizendo a mesma coisa, eu teria .75 ^ 3 ÷ (.75 ^ 3 + .25 ^ 3) => 96% de confiabilidade da resposta combinada

— user3902302
fonte

11

Esta não parece ser uma resposta adequada para a pergunta.

— Michael R. Chernick

É certo que foi mais uma resposta aos comentários do KarstenW do que uma resposta direta à pergunta.

— user3902302