Estou lendo Por que o Momentum Really Works , um post do novo diário de destilação. Parafraseando as principais equações que levam à parte que me confunde, o post descreve a intuição em mais detalhes.
O algoritmo de descida de gradiente é dado pelo seguinte processo iterativo
A descida de gradiente com momento é dada adicionando "memória" à descida, isto é descrito pelo par de equações:
Na próxima seção "Primeiros passos: descida do gradiente", o autor considera uma função quadrática convexa
Se usarmos a descida gradiente, iteraremos para esta solução ideal da seguinte maneira
O artigo continua dizendo: "Existe um espaço muito natural para ver a descida gradiente, onde todas as dimensões agem independentemente - os autovetores de ". Acho que isso faz sentido, embora minha intuição seja meio confusa.
Toda matriz simétrica tem uma decomposição de autovalor em que
Onde e é o vetor com os vetores próprios correspondentes como colunas (certo?).
Esta próxima parte é onde eu não entendo o que está acontecendo:
Se fizermos uma mudança de base, , as iterações se separam, tornando-se:
Voltando ao nosso espaço original , nós podemos ver isso
O que está acontecendo aqui? Onde está a motivação de tomarno eigendomain? O que é? Por que agora estamos olhando para elementos inviduais do vetor? Eu tentei seguir as caculações, mas depende de o que depende , que pensei que estávamos tentando eliminar. Minha pergunta é: alguém pode expandir esses poucos passos com alguma intuição e cálculos? Obrigado.