Estimar a entropia de informações através da amostragem de Monte Carlo

10

Estou procurando métodos que permitam estimar a entropia de informações de uma distribuição quando as únicas formas práticas de amostragem dessa distribuição são os métodos de Monte Carlo.

Meu problema não é diferente do modelo padrão de Ising, que normalmente é usado como exemplo introdutório para amostragem Metropolis-Hastings. I têm uma distribuição de probabilidade sobre um conjunto , ou seja, que tem para cada . Os elementos são de natureza combinatória, como os estados de Ising, e há um número muito alto deles. Isso significa que, na prática, nunca recebo a mesma amostra duas vezes ao fazer amostragens dessa distribuição em um computador. não pode ser calculado diretamente (devido ao desconhecimento do fator de normalização), mas é fácil calcular a razão . $A$ $p(a)$ $a \in A$ $a \in A$ $p(a)$ $p(a_1)/p(a_2)$

Quero estimar a entropia de informações dessa distribuição,

S = - \sum_{a \in A} p (a) \ln p (a) .

$S = -\sum_{a \in A} p(a) \ln p(a).$

Como alternativa, quero estimar a diferença de entropia entre essa distribuição e a obtida através da restrição a um subconjunto (e, é claro, re-normalizando). $a\in A_1 \subset A$

monte-carlo random-sampling

— Charles Wells
fonte

3

Se eu entendo quais informações você tem disponível, o que você quer não é possível: as informações disponíveis não são suficientes para determinar a entropia. Nem é suficiente aproximar a entropia.

Parece que você pode coletar amostras da distribuição e calcular a proporção para qualquer par de elementos que você obteve por amostragem, mas você não tem outras informações. Nesse caso, seu problema não é solucionável. $p(\cdot)$ $p(a_1)/p(a_2)$ $a_1,a_2$

Em particular, podemos encontrar um par de distribuições que têm diferentes entropias, mas que não podem ser distinguidas usando as informações disponíveis. Considere primeiro a distribuição uniforme em um conjunto (aleatório) de tamanho . Considere a seguir a distribuição uniforme em um conjunto (aleatório) de tamanho . Estes têm diferentes entropias (200 bits vs 300 bits). No entanto, dadas as informações disponíveis, você não tem como saber com quais dessas duas distribuições você está trabalhando. Em particular, em ambos os casos, a proporção $2^{200}$ $2^{300}$ $p(a_1)/p(a_2)$ sempre será exatamente 1, portanto, as proporções não ajudarão você a distinguir entre as duas distribuições. E devido ao paradoxo do aniversário, você pode experimentar o quanto quiser, mas nunca obterá o mesmo valor duas vezes (não durante a vida útil, exceto com probabilidade exponencialmente pequena), para que os valores obtidos na amostragem pareçam apenas pontos aleatórios e não contêm informações úteis.

Portanto, para resolver seu problema, você precisará saber algo mais. Por exemplo, se você souber algo sobre a estrutura da distribuição , isso poderá tornar possível a solução do seu problema. $p(\cdot)$

— DW
fonte

p (a)

$p(a)$ tem de fato uma propriedade especial: é como Gibbs, isto é, onde é a "energia" de . Exceto que existem várias quantidades de "energia", cada uma com seu parâmetro correspondente .

p (a) \propto \exp (θ E (a))

$p(a) \propto \exp(\theta E(a))$

E

$E$

a

$a$

θ

$\theta$

— Charles Wells

11

@CharlesWells, não estou seguindo o que você quer dizer com "várias quantidades". Parece que vale a pena postar separadamente, como uma pergunta separada, onde você nos fornece informações sobre a estrutura de . Talvez haja uma solução para esse caso especial.

p (a)

$p(a)$

— DW

2

Para a segunda parte da sua pergunta (estimativa da diferença de entropia entre distribuições), você poderá usar a identidade onde é a energia média, é a temperatura (é é proporcional a em ) e é a entropia. Para detalhes, veja: Jaynes, E. (1957). Teoria da informação e mecânica estatística. Physical Review, 106 (4), 620–630. http://doi.org/10.1103/PhysRev.106.620 .

F = ⟨ E ⟩ - T S,

$F = \langle E \rangle - T S,$

⟨ E ⟩

$\langle E \rangle$

T

$T$

θ

$\theta$

p \propto e^{θ E}

$p \propto \mathrm{e}^{\theta E}$

S

$S$

$\Delta F$ $\Delta S$ $\Delta F$ $\Delta \langle E \rangle$ $A_1$ $A$ $E$ $A_1$

Aqui estão duas referências adicionais sobre algoritmos para calcular energia livre:

Lelièvre, T., Rousset, M., & Stoltz, G. (2010). Computações de energia livre. Imperial College Press. http://doi.org/10.1142/9781848162488

Chipot, C. & Pohorille, A. (2007). Cálculos de energia livre. (C. Chipot e A. Pohorille, Eds.) (Vol. 86). Berlim, Heidelberg: Springer Berlin Heidelberg. http://doi.org/10.1007/978-3-540-38448-9

— Juan M. Bello-Rivas
fonte

Você pode fornecer referências mais práticas para calcular diferenças de energia livre? Esse wiki não vai muito longe

— Charles Wells

Feito. Adicionei mais duas referências e apontei para os links na barra lateral do wiki.

— Juan M. Bello-Rivas