Heuristicamente, a função densidade de probabilidade em com entropia máxima acaba sendo a que corresponde à menor quantidade de conhecimento de{x1,x2,..,.xn} , em outras palavras, a distribuição uniforme.{x1,x2,..,.xn}
Agora, para uma prova mais formal, considere o seguinte:
A função de densidade de probabilidade em é um conjunto de números reais não negativo p 1 , . . . , P n que adicionar até 1. A entropia é uma função contínua dos n -tuples ( p 1 , . . . , P n ) , e estes pontos encontram-se em um subconjunto compacto de R n , para que haja um n{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rnn-tuplo onde a entropia é maximizada. Queremos mostrar isso ocorre em e em nenhum outro lugar.(1/n,...,1/n)
Suponha que não sejam todos iguais, digamos p 1 < p 2 . (Claramente n ≠ 1. ) Encontraremos uma nova densidade de probabilidade com maior entropia. Segue-se, desde que a entropia é maximizada em algum n- duplo, essa entropia é maximizada exclusivamente no n- duplo com p i = 1 / n para todos os i .pjp1<p2n≠1nnpi=1/ni
Como , para ε positivo pequeno , temos p 1 + ε < p 2 - ε . A entropia de { p 1 + ε , p 2 - ε , p 3 , . . . , P n } menos a entropia de { p 1 , p 2 , p 3 , . . . , pp1<p2εp1+ε<p2−ε{p1+ε,p2−ε,p3,...,pn} é igual{p1,p2,p3,...,pn}
Para concluir a prova, queremos mostrar que isso é positivo paraεpequeno o suficiente. Reescreva a equação acima como
-p1log(1+ε
−p1log(p1+εp1)−εlog(p1+ε)−p2log(p2−εp2)+εlog(p2−ε)
ε−p1log(1+εp1)−ε(logp1+log(1+εp1))−p2log(1−εp2)+ε(logp2+log(1−εp2))
Recordando que para x pequeno , a equação acima é
- ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 )
que é positivo quandolog(1+x)=x+O(x2)x
−ε−εlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
é pequeno o suficiente, pois
p 1 < p 2 .
εp1<p2
Uma prova menos rigorosa é a seguinte:
Considere primeiro o seguinte lema:
p(x)q(x)Ip≥0q>0I
−∫Iplogpdx≤−∫Iplogqdx
p(x)=q(x)x
p{x1,...,xn}pi=p(xi)qi=1/ni
−∑i=1npilogqi=∑i=1npilogn=logn
qh(p)≤h(q)p
Além disso, a wikipedia também tem uma breve discussão sobre isso: wiki