O que é entropia empírica?


19

Na definição de conjuntos comuns em conjunto (em "Elementos da teoria da informação", cap. 7.6, p. 195), usamos

1nlogp(xn)
como a entropia empírica de uma sequência com . Eu nunca me deparei com essa terminologia antes. Não é definido explicitamente em nenhum lugar, de acordo com o índice do livro.np(xn)=Eu=1np(xEu)

Minha pergunta é basicamente: Por que a entropia empírica não é onde é a distribuição empírica?-xp^(x)registro(p^(x))p^(x)

Quais são as diferenças e semelhanças mais interessantes entre essas duas fórmulas? (em termos de propriedades que eles compartilham / não compartilham).


As duas expressões não são algebricamente iguais?
whuber

1
@ whuber: Não, são quantidades diferentes, com propósitos diferentes, acredito. Observe que o primeiro usa a medida verdadeira assumida conhecida a priori. O segundo não. p
cardeal

3
O primeiro diz respeito ao acúmulo de entropia ao longo do tempo e como ele se compara à verdadeira entropia do sistema. O SLLN e o CLT dizem muito sobre como ele se comporta. O segundo diz respeito à estimativa da entropia a partir dos dados e algumas de suas propriedades também podem ser obtidas através das mesmas duas ferramentas mencionadas. Mas, enquanto o primeiro é imparcial, o segundo não tem . Posso preencher alguns detalhes, se for útil. p
cardeal

1
@cardinal: Se você fornecer o comentário acima como uma resposta (talvez também explicar o que SLLN e CLT são - eu não sei isso?) Eu ficaria feliz em upvote ...
blubb

Ok, vou tentar postar mais tarde. Enquanto isso, SLLN = "Lei forte de grandes números" e CLT = "Teorema do limite central". Essas são abreviações bastante comuns que você provavelmente encontrará novamente. Felicidades. :)
cardeal

Respostas:


16

Se os dados forem , ou seja, um n -sequence a partir de um espaço de amostragem X , as probabilidades de ponto empíricos são p ( x ) = 1xn=x1...xnnX paraxX. Aquiδx(xi)é um sexi=xe zero em caso contrário. Isto é, p (x)representa a frequência relativa dexna sequência observada. Aentropiada distribuição de probabilidade dada pelas probabilidades de ponto empíricos é H( p )=-Σ

p^(x)=1n|{EuxEu=x}|=1nEu=1nδx(xEu)
xXδx(xEu)xEu=xp^(x)x O último identidade seguinte modo trocando os dois montantes e notando queΣx X δx(xi)log p (x)=log P (xi). Deste vemos que H( p )=-1
H(p^)=-xXp^(x)registrop^(x)=-xX1nEu=1nδx(xEu)registrop^(x)=-1nEu=1nregistrop^(xEu).
xXδx(xEu)registrop^(x)=registrop^(xEu).
com p (xn)=Π n i = 1 P (xi)e usando a terminologia do questão esta é a entropia empírica dadistribuição de probabilidade empírica. Como apontado por @cardinal em um comentário,-1
H(p^)=-1nregistrop^(xn)
p^(xn)=Eu=1np^(xEu)é a entropia empírica de uma dada distribuição de probabilidade com probabilidades pontuaisp.-1nregistrop(xn)p

3
(+1) Isso fornece uma boa ilustração do que Cover e Thomas chamam de "estranho caráter auto-referencial" da entropia. No entanto, não tenho certeza se a resposta realmente aborda (diretamente) as preocupações aparentes do OP. :)
cardeal

@ cardinal, eu sei, e a resposta foi apenas um longo comentário para fazer esse ponto específico. Eu não queria repetir seus pontos.
NRH

1
Você não deve se sentir mal ou hesitar em postar sua própria resposta, incluindo a expansão nos meus comentários ou nos de outras pessoas. Sou particularmente lento e péssimo em postar respostas e nunca vou me ofender se você ou outras pessoas postarem respostas que incorporam aspectos de coisas que eu possa ter comentado brevemente brevemente. Muito pelo contrário, de fato. Felicidades.
cardeal

7

A entropia é definida para distribuições de probabilidade. Quando você não possui um, mas apenas dados, e conecta um estimador ingênuo da distribuição de probabilidade, obtém entropia empírica. Isso é mais fácil para distribuições discretas (multinomiais), como mostrado em outra resposta, mas também pode ser feito para outras distribuições por binning, etc.

Um problema com a entropia empírica é que ela é enviesada para amostras pequenas. A estimativa ingênua da distribuição de probabilidade mostra variação extra devido ao ruído de amostragem. Obviamente, pode-se usar um estimador melhor, por exemplo, um prévio adequado para os parâmetros multinomiais, mas não é fácil obtê-lo realmente imparcial.

O acima descrito também se aplica a distribuições condicionais. Além disso, tudo é relativo ao binning (ou kernelization), então você realmente tem um tipo de entropia diferencial.


3
Devemos ter cuidado com o que estamos chamando de entropia empírica aqui. Observe que o estimador de plug-in é sempre tendencioso baixo para todos os tamanhos de amostra, embora o viés diminua à medida que o tamanho da amostra aumenta. Não é apenas difícil obter estimadores imparciais para a entropia, mas é impossível no caso geral. Houve pesquisas bastante intensas nessa área nos últimos anos, principalmente na literatura de neurociência. Muitos resultados negativos existem, de fato.
cardeal
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.