Certo, então, em vez de derivar a equação de Saunder (5), vou declarar aqui. As condições 1 e 2 implicam a seguinte igualdade:
∏j=1m(∑k≠ihkdjk)=(∑k≠ihk)m−1(∑k≠ihk∏j=1mdjk)
que
djk=P(Dj|Hk,I)hk=P(Hk|I)
Agora podemos nos especializar para o caso (dois conjuntos de dados) pegando e . Observe que esses dois conjuntos de dados ainda satisfazem as condições 1 e 2; portanto, o resultado acima se aplica a eles também. Agora, expandindo no caso , obtemos:m=2D(1)1≡D1D(1)2≡D2D3…Dmm=2
(∑k≠ihkd1k)(∑l≠ihld2l)=(∑k≠ihk)(∑l≠ihld1ld2l)
→∑k≠i∑l≠ihkhld1kd2l=∑k≠i∑l≠ihkhld1ld2l
→∑k≠i∑l≠ihkhld2l(d1k−d1l)=0(i=1,…,n)
O termo ocorre duas vezes no somatório duplo acima, uma vez quando e e mais uma vez quando e . Isso ocorrerá enquanto . O coeficiente de cada termo é dado por e . Agora, porque existem dessas equações, podemos realmente remover dessas equações. Para ilustrar, ter , agora Isto significa que temos todas as condições, excepto em que e . Agora pegue(d1a−d1b)k=al=bk=bl=aa,b≠id2b−d2aiii=1a=1,b=2b=1,a=2i=3, e agora podemos ter essas duas condições (observe que isso pressupõe pelo menos três hipóteses). Portanto, a equação pode ser reescrita como:
∑l>khkhl(d2l−d2k)(d1k−d1l)=0
Agora, cada um dos termos deve ser maior que zero; caso contrário, estamos lidando com a hipótese , e a resposta pode ser reformulada em termos de . Portanto, eles podem ser removidos do conjunto de condições acima:hin1<nn1
∑l>k(d2l−d2k)(d1k−d1l)=0
Portanto, existem condições que devem ser satisfeitas e cada condição implica uma de duas "sub-condições": para ou (mas não necessariamente ambos). Agora temos um conjunto de todos os pares únicos para . Se pegarmos desses pares para um dos , teremos todos os números no conjunto e . Isso ocorre porque o primeiro par possui elementos e cada par adicional traz pelo menos um elemento adicional ao conjunto *n(n−1)2djk=djlj=1j=2(k,l)djk=djln−1j1,…,ndj1=dj2=⋯=dj,n−1=dj,n2
Mas observe que, como existem condições , devemos escolher pelo menos o menor número inteiro maior que ou igual a para um dos ou . Se , o número de termos escolhido é maior que . Se ou , devemos escolher exatamente termos . Isso implica que . Somente com duas hipóteses ( ) é onde isso não ocorre. Mas a partir da última equação no artigo de Saunder, essa condição de igualdade implica:n(n−1)212×n(n−1)2=n(n−1)4j=1j=2n>4n−1n=4n=3n−1dj1=dj2=⋯=dj,n−1=dj,nn=2
P(Dj|H¯¯¯¯¯i)=∑k≠idjkhk∑k≠ihk=dji∑k≠ihk∑k≠ihk=dji=P(Dj|Hi)
Portanto, na razão de verossimilhança, temos:
P(D(1)1|Hi)P(D(1)1|H¯¯¯¯¯i)=P(D1|Hi)P(D1|H¯¯¯¯¯i)=1 ORP(D(1)2|Hi)P(D(1)2|H¯¯¯¯¯i)=P(D2D3…,Dm|Hi)P(D2D3…,Dm|H¯¯¯¯¯i)=1
Para concluir a prova, observe que, se a segunda condição persistir, o resultado já está comprovado e apenas uma proporção poderá ser diferente de 1. Se a primeira condição , poderemos repetir a análise acima e . Então teríamos não contribuindo ou sendo o único colaborador. Teríamos então uma terceira quando não contribuísse com a retenção, e assim por diante. Assim, apenas um conjunto de dados pode contribuir para a razão de verossimilhança quando a condição 1 e a condição 2 se mantêm, e há mais de duas hipóteses.D(2)1≡D2D(2)2≡D3…,DmD1,D2D2D1D2
* NOTA: Um par adicional pode não trazer novos termos, mas isso seria compensado por um par que trazia 2 novos termos. por exemplo, considere como o primeiro [+2], [+1] [+0], mas o próximo termo deve tenha para ambos . Isso adicionará dois termos [+2]. Se , não precisamos mais escolher, mas para o "outro" devemos escolher os 3 pares que não são . Estes são e, portanto, a igualdade se mantém, porque todos os números estão no conjunto.dj1=dj2dj1=dj3dj2=dj3djk=djlk,l∉(1,2,3)n=4j(1,2),(2,3),(1,3)(1,4),(2,4),(3,4)(1,2,3,4)