Se os dados forem , ou seja, um n -sequence a partir de um espaço de amostragem X , as probabilidades de ponto empíricos são
p ( x ) = 1xn= x1… XnnX
parax∈X. Aquiδx(xi)é um sexi=xe zero em caso contrário. Isto é, p (x)representa a frequência relativa dexna sequência observada. Aentropiada distribuição de probabilidade dada pelas probabilidades de ponto empíricos é
H( p )=-Σ
p^( x ) = 1n| {I| xEu= x } | = 1n∑i = 1nδx( xEu)
x ∈ Xδx( xEu)xEu= xp^( X )x
O último identidade seguinte modo trocando os dois montantes e notando que
Σx∈ X δx(xi)log p (x)=log P (xi).
Deste vemos que
H( p )=-1H( p^) = - ∑x ∈ Xp^( X ) logp^( x ) = - ∑x ∈ X1n∑i = 1nδx( xEu) logp^( x ) = - 1n∑i = 1nregistrop^( xEu) .
∑x ∈ Xδx( xEu) logp^( x ) = logp^( xEu) .
com
p (xn)=Π n i = 1 P (xi)e usando a terminologia do questão esta é a entropia empírica da
distribuição de probabilidade empírica. Como apontado por @cardinal em um comentário,
-1H( p^) = - 1nregistrop^( xn)
p^( xn) = ∏ni = 1p^( xEu)é a entropia empírica de uma dada distribuição de probabilidade com probabilidades pontuais
p.
- 1nregistrop ( xn)p