Este não é realmente o meu campo, então algumas reflexões:
Vou começar com o conceito de surpresa . O que significa ser surpreendido? Normalmente, isso significa que aconteceu algo que não se esperava que acontecesse. Portanto, surpreenda-o como um conceito probabilístico e pode ser explicado como tal (IJ Good escreveu sobre isso). Veja também Wikipedia e Surpresa Bayesiana .
Tomemos o caso particular de uma situação de sim / não, algo pode acontecer ou não. Isso acontece com probabilidade p . Digamos, se p = 0,9 e isso acontecer, você não ficará surpreso. Se p = 0,05 e isso acontecer, você ficará surpreso. E se p = 0,0000001 e isso acontece, você está realmente surpreso. Portanto, uma medida natural do "valor surpresa no resultado observado" é uma função (anti) monótona da probabilidade do que aconteceu. Parece natural (e funciona bem ...) adotar o logaritmo de probabilidade do que aconteceu e, em seguida, lançamos um sinal de menos para obter um número positivo. Além disso, adotando o logaritmo, concentramo-nos na ordem da surpresa e, na prática, as probabilidades costumam ser conhecidas apenas por ordem, mais ou menos .
Assim, definimos
Surpresa ( A ) = - logp ( A )
onde UMA é o resultado observado p ( A ) é sua probabilidade.
Agora podemos perguntar qual é a surpresa esperada . Seja X uma variável aleatória de Bernoulli com probabilidade p . Possuem dois resultados possíveis, 0 e 1. Os respectivos valores de surpresa são
Surpresa ( 0 )Surpresa ( 1 )= - log( 1 - p )= - logp
então a surpresa ao observarXé ela própria uma variável aleatória com expectativa
p ⋅ - logp + ( 1 - p ) ⋅ - log( 1 - p )
e isso é --- surpresa! --- a entropia deX! Então entropia éesperada surpresa!
Agora, esta pergunta é sobre entropia máxima . Por que alguém iria querer usar uma distribuição máxima de entropia? Bem, deve ser porque eles querem ser surpreendidos ao máximo! Por que alguém iria querer isso?
Uma maneira de ver isso é o seguinte: você quer aprender algo e, para esse objetivo, estabelece algumas experiências de aprendizado (ou experimentos ...). Se você já sabia tudo sobre esse tópico, sempre pode prever com perfeição, para nunca se surpreender. Como você nunca obtém uma nova experiência, não aprenda nada de novo (mas você já sabe tudo - não há nada a aprender, tudo bem). Na situação mais típica que você está confuso, incapaz de prever perfeitamente, há uma oportunidade de aprendizado! Isso leva à idéia de que podemos medir a "quantidade possível de aprendizado" pela surpresa esperada , ou seja, entropia. Portanto, maximizar a entropia nada mais é do que maximizar a oportunidade de aprender. Isso soa como um conceito útil, que pode ser útil na criação de experimentos e coisas assim.
Um exemplo poético é o bem conhecido
Wenn einer eine reise macht, dann kann er was erzählen ...
Um exemplo prático: você deseja projetar um sistema para testes on-line (on-line significa que nem todos recebem as mesmas perguntas, as perguntas são escolhidas dinamicamente, dependendo das respostas anteriores, otimizadas, de alguma forma, para cada pessoa).
ppp = 0,5
XX{ X= x }- logpxf( X )fSurpresa ( x ) = - logf( X )
XE{ - logf( X) } = - ∫f( X ) logf( X )dx
XX
X