Derivação de negentropia. Ficar preso

Portanto, essa questão está um pouco envolvida, mas eu tentei meticulosamente torná-la a mais direta possível.

Objetivo: Para encurtar a história, existe uma derivação da negentropia que não envolve cumulantes de ordem superior, e estou tentando entender como ela foi derivada.

Antecedentes: (eu entendo tudo isso)

Estou estudando o livro 'Independent Component Analysis' , encontrado aqui. (Esta questão é da seção 5.6, caso você tenha o livro - 'Aproximação de entropia por funções não polinomiais').

Temos $x$ , que é uma variável aleatória e cuja negentropia queremos estimar, a partir de algumas observações que temos. O PDF de $x$ é dado por $p_x(\zeta)$ . Negentropia é simplesmente a diferença entre a entropia diferencial de uma variável aleatória gaussiana padronizada e a entropia diferencial de $x$ . A entropia diferencial aqui é dada por $H$ , de modo que:

H (x) = - \int_{- \infty}^{\infty} p_{x} (ζ) l o g (p_{x} (ζ)) d ζ

$H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta$

e assim, a negentropia é dada por

J (x) = H (v) - H (x)

$J(x) = H(v) - H(x)$

onde é um rv gaussiano padronizado, com PDF fornecido por . $v$ $\phi(\zeta)$

Agora, como parte desse novo método, meu livro derivou uma estimativa do PDF de , dada por: $x$

p_{x} (ζ) = ϕ (ζ) [1 + \sum_{i} c_{i} F^{i} (ζ)]

$p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; F^{i}(\zeta)]$

(Onde . A propósito, é não uma potência, mas em vez disso um índice). $c_i = \mathbb{E}\{F^i(x)\}$ $i$

Por enquanto, eu 'aceito' essa nova fórmula em PDF e perguntarei sobre ela outro dia. Este não é o meu problema principal. O que ele faz agora, porém, é conectar esta versão do PDF de volta à equação negentropy e terminar com: $x$

J (x) \approx \frac{1}{2} \sum_{i} E {F^{i} (x)}^{2}

$J(x) \approx \frac{1}{2}\sum_i\mathbb{E} \{F^i(x)\}^2$

Lembre-se de que o sigma (aqui e no resto do post) apenas circula o índice . Por exemplo, se tivéssemos apenas duas funções, o sinal retornaria para e . Claro, eu deveria falar sobre as funções que ele está usando. Então, aparentemente, essas funções são definidos como assim: $i$ $i=2$ $i=2$ $F^i$

As funções não são funções polinomiais neste caso. (Supomos que o rv seja zero médio e variância unitária). Agora, vamos fazer algumas restrições e dar propriedades dessas funções: $F^i$ $x$

$F^{n + 1} (ζ) = ζ, c_{n + 1} = 0$ $F^{n+1}(\zeta) = \zeta, \: \: c_{n+1} = 0$
$F^{n + 2} (ζ) = ζ^{2}, c_{n + 1} = 1$ $F^{n+2}(\zeta) = \zeta^2, \: \: c_{n+1} = 1$
Para cálculos Simplifique, vamos fazer outra, suposição puramente técnica: As funções , forme um sistema ortonormal, como tal: $F^i, i = 1, ... n$

$\int ϕ (ζ) F^{i} (ζ) F^{j} (ζ) d ζ = {\begin{cases} 1, if i = j \\ 0, if i \neq j \end{cases}$ $\int \phi(\zeta) F^i(\zeta)F^j(\zeta)d\zeta= \begin{cases} 1, \quad \text{if } i = j \\ 0, \quad \text{if } i \neq j \end{cases}$
e

$\int ϕ (ζ) F^{i} (ζ) ζ^{k} d (ζ) = 0, for k = 0, 1, 2$ $\int \phi(\zeta)F^i(\zeta)\zeta^k d(\zeta) = 0, \quad \text{for } k = 0,1,2$

Quase lá! OK, então tudo isso era o pano de fundo, e agora a pergunta. A tarefa é, então, simplesmente colocar este novo PDF na fórmula de entropia diferencial, . Se eu entender isso, vou entender o resto. Agora, o livro fornece a derivação (e eu concordo com isso), mas fico preso no final, porque não sei / vejo como está sendo cancelado. Além disso, não sei como interpretar a notação pequena da expansão de Taylor. $H(x)$

Este é o resultado:

Usando a expansão de Taylor , paraobtemos: $(1+\epsilon)log(1+\epsilon) = \epsilon + \frac{\epsilon^2}{2} + o(\epsilon^2)$ $H(x)$

H (x) = - \int ϕ (ζ) (1 + \sum c_{i} F^{i} (ζ)) (l o g (1 + \sum c_{i} F^{i} (ζ) + l o g (ζ)) d (ζ) = - \int ϕ (ζ) l o g (ζ) - \int ϕ (ζ) \sum c_{i} F^{i} (ζ) l o g (ϕ (ζ)) - \int ϕ (ζ) [\sum c_{i} F^{i} (ζ) + \frac{1}{2} (\sum c_{i} F^{i} (ζ))^{2} + o ((\sum c_{i} F^{i} (ζ))^{2})]

$H(x) = -\int \phi(\zeta) \; (1 + \sum c_i F^i(\zeta)) \; (log(1 + \sum c_i F^i(\zeta) + log(\zeta)) \; d(\zeta) \\ = -\int \phi(\zeta) log(\zeta) -\int \phi(\zeta) \sum c_i F^i(\zeta) log(\phi(\zeta)) -\int \phi(\zeta) \; [\sum c_i F^i(\zeta) + \frac{1}{2}(\sum c_i F^i(\zeta))^2 + o((\sum c_i F^i(\zeta))^2)]$

e entao

A questão: (eu não entendo isso)

H (x) = H (v) - 0 - 0 - \frac{1}{2} \sum c_{i}^{2} + o ((\sum c_{i})^{2}

$H(x) = H(v) - 0 - 0 -\frac{1}{2}\sum c_i^2 + o((\sum c_i)^2$

Então, meu problema: exceto o , não entendo como ele conseguiu os 4 termos finais na última equação. (ou seja, os 0, os 0 e os 2 últimos termos). Eu entendo tudo antes disso. Ele diz que explorou as relações de ortogonalidade dadas nas propriedades acima, mas não vejo como. (Eu também não entendo a notação small-o aqui, no sentido de como ela é usada?) $H(v)$

OBRIGADO!!!!

EDITAR:

Fui em frente e adicionei as imagens do livro que estou lendo, que praticamente diz o que disse acima, mas apenas no caso de alguém precisar de um contexto adicional.

insira a descrição da imagem aqui

$c_i^2$

— Spacey
fonte

\log ϕ (x)

$\log \phi(x)$

\neq

$\neq$

@ cardinal Ok, corrigido o erro de digitação, obrigado. Dito isto, não estou claro como ele está realizando o cancelamento. Eu adicionei as imagens reais a partir do próprio livro.

— Spacey

Honestamente, também não tenho idéia de como ou por que isso foi migrado do site de matemática. De qualquer forma, estou feliz por tê-lo aqui, onde é igualmente em casa. Você se esforçou bastante nessa questão. :-)

— cardeal

@ cardinal Me agrada muito ouvir você dizer isso. :-) Sim, espero que esse investimento em auto-estudo valha a pena algum dia. ;-)

— Spacey

@Mohammad, sim! A ACI também é um tópico muito interessante :-).

— Néstor

$c_i$

c_{i} = \int p_{0} (ξ) G^{i} (ξ) d ξ .

$c_i=\int p_0(\xi)G^i(\xi)d\xi.$

ξ

$\xi$

ξ^{'}

$\xi'$

c_{i}

$c_i$

>> Para obter os termos zero:

$\varphi(\xi)=\exp(-\xi^2/2)/\sqrt{2\pi}$ $\log\varphi(\xi)$

\log φ (ξ) = - ξ^{2} / 2 - \log \sqrt{2 π} .

$\log\varphi(\xi)=-\xi^2/2-\log\sqrt{2\pi}.$

c_{i} \int φ (ξ) G^{i} (ξ) \log φ (ξ) = - \frac{1}{2} c_{i} \int φ (ξ) G^{i} (ξ) ξ^{2} - \log \sqrt{2 π} c_{i} \int φ (ξ) G^{i} (ξ), (1)

$c_i\int\varphi(\xi)G^i(\xi)\log \varphi(\xi)=-\frac{1}{2}c_i\int\varphi(\xi)G^i(\xi)\xi^2-\log\sqrt{2\pi}c_i\int\varphi(\xi)G^i(\xi),\ \ \ (1)$

$\int \varphi(\xi)F^i(\xi)\xi^k$ $0$ $k=0,1,2$ $(1)$ $k=2$ $k=0$

$\sum c_i^2$

\int φ (ξ) {(\sum_{Eu = 1}^{n} c_{Eu} G^{Eu} (ξ))}^{2} d ξ .

$\int \varphi(\xi)\left(\sum_{i=1}^{n} c_iG^i(\xi)\right)^2d\xi.$

\int φ (ξ) \sum_{k_{1} + k_{2} + . . . k_{n} = 2} \frac{2!}{k_{1}! k_{2}! . . . k_{n}!} \prod_{1 \leq t \leq n} (c_{t} G^{t} (ξ))^{k_{t}} d ξ .

$\int \varphi(\xi)\sum_{k_1+k_2+...k_n=2} \frac{2!}{k_1! k_2!...k_n!}\prod_{1\leq t \leq n}(c_tG^t(\xi))^{k_t}d\xi.$

\int φ (ξ) G^{Eu} (ξ) G^{j} (ξ) d ξ

$\int \varphi(\xi)G^{i}(\xi)G^{j}(\xi)d\xi$

i \neq j

$i\neq j$

i = j

$i=j$

\int φ (ξ) {(\sum c_{i} G^{i} (ξ))}^{2} d ξ = \sum c_{i}^{2} .

$\int \varphi(\xi)\left(\sum c_iG^i(\xi)\right)^2d\xi=\sum c_i^2.$

$o(\text{whatever})$

$\text{whatever}$ $o(\text{whatever})$

PS: Este é um ótimo livro, a propósito. Os trabalhos dos autores sobre o assunto também são muito bons e devem ser lidos se você estiver tentando entender e implementar a ACI.

— Néstor
fonte

(+1) Boa resposta. Se as somas são infinitas, temos que ter mais cuidado ao trocá-las pela integral. Se eles são finitos (como o OP sugere, mas eu não olhei as imagens de perto), tudo é direto, como você mostrou. :-)

— cardeal

Ah sim! Obrigado Nestor, mas e os dois últimos resultados, ou seja, o somatório com o

c_{i}^{2}

$c_i^2$ e somatório com a parte da notação small-o?

— Spacey

@ cardinal: Ah, sim! Eles são finitos (não sei por que os escrevi onde eram infinitos ...). Eu mudei isso na minha resposta.

— Néstor

@ Mohammad, estou escrevendo nas minhas respostas suas outras duas perguntas ;-).

— Néstor

@ Néstor, +1 a esta resposta, mas re: seu último comentário, acho que há uma distinção entre notação big-O e little-o .

— Macro