Alguém resolveu o exercício 4.1 do PTLOS?


19

Este é um exercício apresentado na Teoria da Probabilidade: A Lógica da Ciência por Edwin Jaynes, 2003. Há uma solução parcial aqui . Eu elaborei uma solução parcial mais geral e queria saber se mais alguém a resolveu. Vou esperar um pouco antes de postar minha resposta, para dar uma chance aos outros.

Ok, então suponha que temos hipóteses mutuamente exclusivas e exaustivas, denotadas por . Suponhamos ainda que temos conjuntos de dados, denotados por D_j \; \; (j = 1, \ dots, m) . A razão de verossimilhança da i-ésima hipótese é dada por:nHi(i=1,,n)mDj(j=1,,m)

LR(Hi)=P(D1D2,Dm|Hi)P(D1D2,Dm|H¯i)

Observe que essas são probabilidades condicionais. Agora, suponha que, dada a i-ésima hipótese Hi os m conjuntos de dados sejam independentes, portanto, temos:

P(D1D2,Dm|Hi)=j=1mP(Dj|Hi)(i=1,,n)Condition 1

Agora seria bastante conveniente se o denominador também considerasse essa situação, para que tenhamos:

P(D1D2,Dm|H¯i)=j=1mP(Dj|H¯i)(i=1,,n)Condition 2

Nesse caso, a taxa de probabilidade será dividida em um produto de fatores menores para cada conjunto de dados, para que tenhamos:

LR(Hi)=j=1mP(Dj|Hi)P(Dj|H¯i)

Portanto, nesse caso, cada conjunto de dados "votará em Hi " ou "votará em Hi " independentemente de qualquer outro conjunto de dados.

O exercício é para provar que, se n>2 (mais de duas hipóteses), não existe uma maneira não trivial pela qual esse fatoramento possa ocorrer. Ou seja, se você assumir que a condição 1 e a condição 2 se mantêm, no máximo um dos fatores:

P(D1|Hi)P(D1|H¯i)P(D2|Hi)P(D2|H¯i)P(Dm|Hi)P(Dm|H¯i)
é diferente de 1 e, portanto, apenas 1 conjunto de dados contribuirá para a taxa de probabilidade.

Pessoalmente, achei esse resultado bastante fascinante, porque basicamente mostra que o teste de hipóteses múltiplas não passa de uma série de testes de hipóteses binárias.


Estou um pouco confuso com o índice em ; é ? Ou é ? Parece que deveria ser o último, mas não sei por que o subscrito. Ou talvez eu estou faltando algo completamente diferente :)H¯iH¯i=argmaxhHiP(D1,Dm|h)H¯i=argmaxh{H1,,Hn}P(D1,Dm|h)
JMS

@JMS - representa a afirmação lógica " é falsa" ou que uma das outras hipóteses é verdadeira. Assim, em "Álgebra booleana", temos (porque a hipótese são exclusivos e exaustiva)H¯iHiH¯iH1+H2++Hi1+Hi+1++Hn
probabilityislogic

Sinto que deve haver uma solução mais intuitiva do que a álgebra apresentada na solução parcial de Sanders. Se os dados são independentes, considerando cada uma das hipóteses, isso continua válido quando os anteriores da hipótese são variados. E de alguma forma, o resultado é que o mesmo deve aplicar-se para a conclusão ...
charles.y.zheng

@ charles - Eu sei exatamente como você se sente. Eu pensei que poderia derivar usando alguma inconsistência qualitativa (Reductio ad absurdum), mas não consegui. Eu poderia estender a matemática de Sander. E é a Condição 2 que é "a desonesta" em termos do significado do resultado.
probabilityislogic

@probabilityislogic "mostra basicamente que o teste de múltiplas hipóteses nada mais é do que uma série de testes de hipóteses binárias". Por favor, você poderia expandir essa frase? Ao ler a página 98 do livro de Jaynes, entendo que você pode reduzir o teste de para testar o um contra o outro e depois normalizar de alguma forma para obter o posterior para , mas não entendo por que isso aconteceria a partir dos resultados do exercício 4.1. H1,,HnH1H1
Martin Drozdik

Respostas:


7

A razão pela qual aceitamos a eq. 4.28 (no livro, sua condição 1) foi que assumimos a probabilidade dos dados, dada uma certa hipótese e as informações de base são independentes, em outras palavras, para qualquer e com :HaXDiDjij

P(Di|DjHaX)=P(Di|HaX)(1)
extensibilidade além do caso binário pode, portanto, ser discutida assim: Se assumirmos a equação .1 para ser verdade, a eq.2 também é verdadeira?

P(Di|DjHa¯X)=?P(Di|Ha¯X)(2)
Primeiro vamos olhar para o lado esquerdo da eq.2, usando a regra de multiplicação:

P(Di|DjHa¯X)=P(DiDjHa¯|X)P(DjHa¯|X)(3)
Como as hipóteses são assumidas mutuamente exclusivas e exaustivas, podemos escrever: Assim, a eq.3 se torna: No caso de termos apenas duas hipóteses, os somatórios são removidos (uma vez que existe apenas um ), os termos iguais no nominador e denominador, ), cancele a eq.2 está comprovada correta, poisn{H1Hn}
Ha¯=baHb
P(Di|DjHa¯X)=baP(Di|DjHbX)P(DjHb|X)baP(DjHb|X)=baP(Di|HbX)P(DjHb|X)baP(DjHb|X)
baP(DjHb|XHb=Ha¯ . Portanto, a equação 4.29 pode ser derivada da equação 4.28 no livro. Mas quando temos mais de duas hipóteses, isso não acontece, por exemplo, se tivermos três hipóteses: , a equação acima se torna: Em outras palavras: A única maneira pela qual essa equação pode produzir a eq.2 é que ambos os denominadores sejam iguais a 1, ou seja, ambas as frações na os denominadores devem ser iguais a zero. Mas isso é impossível.{H1,H2,H3}
P(Di|DjH1¯X)=P(Di|H2X)P(DjH2|X)+P(Di|H3X)P(DjH3|X)P(DjH2|X)+P(DjH3|X)
P(Di|DjH1¯X)=P(Di|H2X)1+P(DjH3|X)P(DjH2|X)+P(Di|H3X)1+P(DjH2|X)P(DjH3|X)

1
Eu acho que a quarta equação está incorreta. Deveríamos terP(DiDjHb|X)=P(DiHB|X)P(Dj|HbX)
probabilityislogic

Muito obrigado probabilityislogic, fui capaz de corrigir a solução. O que você pensa agora?
Astroboy #

Simplesmente não entendo como Jaynes diz: "Aqueles que não conseguem distinguir entre independência lógica e independência causal suporiam que (4.29) é sempre válido".
Astroboy #

Acho que encontrei a resposta para o meu último comentário: logo após a frase acima, Jaynes diz: "desde que nenhum exerça influência física sobre qualquer outro ". Então, essencialmente, Jaynes está dizendo que, mesmo que não tenham influência física, há uma limitação lógica que não permite a generalização de mais de duas hipóteses. DiDj
Astroboy 27/05

Depois de ler o texto novamente, sinto que meu último comentário não foi uma boa resposta. Pelo que entendi agora, Jayne queria dizer: "Aqueles que não conseguem distinguir entre independência lógica e independência causal" argumentariam que e são assumidos como não tendo influência física. Assim, eles têm independência causal, o que para eles implica independência lógica sobre qualquer conjunto de hipóteses. Portanto, eles acham toda essa discussão sem sentido e simplesmente prosseguem para generalizar o caso binário. DiDj
precisa

1

Certo, então, em vez de derivar a equação de Saunder (5), vou declarar aqui. As condições 1 e 2 implicam a seguinte igualdade:

j=1m(kihkdjk)=(kihk)m1(kihkj=1mdjk)
que
djk=P(Dj|Hk,I)hk=P(Hk|I)

Agora podemos nos especializar para o caso (dois conjuntos de dados) pegando e . Observe que esses dois conjuntos de dados ainda satisfazem as condições 1 e 2; portanto, o resultado acima se aplica a eles também. Agora, expandindo no caso , obtemos:m=2D1(1)D1D2(1)D2D3Dmm=2

(kihkd1k)(lihld2l)=(kihk)(lihld1ld2l)

kilihkhld1kd2l=kilihkhld1ld2l

kilihkhld2l(d1kd1l)=0(i=1,,n)

O termo ocorre duas vezes no somatório duplo acima, uma vez quando e e mais uma vez quando e . Isso ocorrerá enquanto . O coeficiente de cada termo é dado por e . Agora, porque existem dessas equações, podemos realmente remover dessas equações. Para ilustrar, ter , agora Isto significa que temos todas as condições, excepto em que e . Agora pegue(d1ad1b)k=al=bk=bl=aa,bid2bd2aiii=1a=1,b=2b=1,a=2i=3, e agora podemos ter essas duas condições (observe que isso pressupõe pelo menos três hipóteses). Portanto, a equação pode ser reescrita como:

l>khkhl(d2ld2k)(d1kd1l)=0

Agora, cada um dos termos deve ser maior que zero; caso contrário, estamos lidando com a hipótese , e a resposta pode ser reformulada em termos de . Portanto, eles podem ser removidos do conjunto de condições acima:hin1<nn1

l>k(d2ld2k)(d1kd1l)=0

Portanto, existem condições que devem ser satisfeitas e cada condição implica uma de duas "sub-condições": para ou (mas não necessariamente ambos). Agora temos um conjunto de todos os pares únicos para . Se pegarmos desses pares para um dos , teremos todos os números no conjunto e . Isso ocorre porque o primeiro par possui elementos e cada par adicional traz pelo menos um elemento adicional ao conjunto *n(n1)2djk=djlj=1j=2(k,l)djk=djln1j1,,ndj1=dj2==dj,n1=dj,n2

Mas observe que, como existem condições , devemos escolher pelo menos o menor número inteiro maior que ou igual a para um dos ou . Se , o número de termos escolhido é maior que . Se ou , devemos escolher exatamente termos . Isso implica que . Somente com duas hipóteses ( ) é onde isso não ocorre. Mas a partir da última equação no artigo de Saunder, essa condição de igualdade implica:n(n1)212×n(n1)2=n(n1)4j=1j=2n>4n1n=4n=3n1dj1=dj2==dj,n1=dj,nn=2

P(Dj|H¯i)=kidjkhkkihk=djikihkkihk=dji=P(Dj|Hi)

Portanto, na razão de verossimilhança, temos:

P(D1(1)|Hi)P(D1(1)|H¯i)=P(D1|Hi)P(D1|H¯i)=1 ORP(D2(1)|Hi)P(D2(1)|H¯i)=P(D2D3,Dm|Hi)P(D2D3,Dm|H¯i)=1

Para concluir a prova, observe que, se a segunda condição persistir, o resultado já está comprovado e apenas uma proporção poderá ser diferente de 1. Se a primeira condição , poderemos repetir a análise acima e . Então teríamos não contribuindo ou sendo o único colaborador. Teríamos então uma terceira quando não contribuísse com a retenção, e assim por diante. Assim, apenas um conjunto de dados pode contribuir para a razão de verossimilhança quando a condição 1 e a condição 2 se mantêm, e há mais de duas hipóteses.D1(2)D2D2(2)D3,DmD1,D2D2D1D2

* NOTA: Um par adicional pode não trazer novos termos, mas isso seria compensado por um par que trazia 2 novos termos. por exemplo, considere como o primeiro [+2], [+1] [+0], mas o próximo termo deve tenha para ambos . Isso adicionará dois termos [+2]. Se , não precisamos mais escolher, mas para o "outro" devemos escolher os 3 pares que não são . Estes são e, portanto, a igualdade se mantém, porque todos os números estão no conjunto.dj1=dj2dj1=dj3dj2=dj3djk=djlk,l(1,2,3)n=4j(1,2),(2,3),(1,3)(1,4),(2,4),(3,4)(1,2,3,4)


Estou começando a duvidar da precisão dessa prova. O resultado na matemática de Saunders implica apenas restrições não lineares no . Isso faz com que tenha apenas graus de liberdade em vez de . No entanto, para chegar às condições , é necessário um argumento diferente. ndjkdjkn2nn(n1)2
probabilityislogic

0

Para o registro, aqui está uma prova um pouco mais extensa . Ele também contém algumas informações básicas. Talvez isso seja útil para outras pessoas que estudam o tópico.

A idéia principal da prova é mostrar que as condições 1 e 2 de Jaynes implicam que

P(Dmk|HiX)=P(Dmk|X),
para todos, exceto um conjunto de dados mk=1,,m . Em seguida, mostra que, para todos esses conjuntos de dados, também temos
P(Dmk|H¯iX)=P(Dmk|X).
Portanto, temos para todos, exceto um conjunto de dados,
P(Dmk|HiX)P(Dmk|H¯iX)=P(Dmk|X)P(Dmk|X)=1.
A razão que eu queria incluir a prova aqui é que alguns dos passos envolvidos não são de todo óbvio, e é preciso tomar cuidado para não usar qualquer outra coisa do que condições 1 e 2 e a regra do produto (como muitas das outras provas implicitamente). Olink acimainclui todas essas etapas em detalhes. Está no meu Google Drive e assegurarei que ele permaneça acessível.


Bem-vindo ao Cross Validated . Obrigado pela sua resposta. Você pode editar a resposta para expandi-la, a fim de incluir os principais pontos do link que você fornece? Será mais útil para as pessoas que pesquisam neste site e no caso de o link quebrar. A propósito, aproveite a oportunidade para fazer o Tour , se você ainda não o fez. Veja também algumas dicas sobre Como responder , sobre formatação de ajuda e sobre como escrever equações usando o LaTeX / MathJax .
Ertxiem - reinstala Monica

Obrigado por seu comentário. Editei o post e desenhei as etapas principais da prova.
dennis
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.