Descida gradiente de

7

Estou lendo Por que o Momentum Really Works , um post do novo diário de destilação. Parafraseando as principais equações que levam à parte que me confunde, o post descreve a intuição em mais detalhes.

O algoritmo de descida de gradiente é dado pelo seguinte processo iterativo

w^{k + 1} = w^{k} - α \nabla f (w^{k})

$w^{k+1} = w^k-\alpha \nabla f(w^k)$ Onde

w^{k}

$w^k$ é o valor da iteração

k

$k$ , a taxa de aprendizado é

α

$\alpha$ e

\nabla f (w)

$\nabla f(w)$ é o gradiente da função

f

$f$ avaliado em

w

$w$ . A função

f

$f$ você deseja minimizar.

A descida de gradiente com momento é dada adicionando "memória" à descida, isto é descrito pelo par de equações:

\begin{aligned} z^{k + 1} & = β z^{k} + \nabla f (w^{k}) \\ w^{k + 1} & = w^{k} - α z^{k + 1} \end{aligned}

$\begin{align} z^{k+1} &= \beta z^k + \nabla f(w^k) \\ w^{k+1} &= w^k - \alpha z^{k+1} \end{align}$

Na próxima seção "Primeiros passos: descida do gradiente", o autor considera uma função quadrática convexa

f (w) = \frac{1}{2} w^{T} A w - b^{T} w, w \in R^{n}, A \in R^{n, n}

$f(w) = \frac12w^TAw-b^Tw, \quad w \in \mathbb{R}^n, A \in \mathbb{R}^{n,n}$ que tem gradiente

\nabla f (w) = A w - b

$\nabla f(w) = Aw-b$ Se assumirmos

A

$A$ é simétrico e invertível, então

f

$f$ tem solução ideal

w^{⋆} = A^{- 1} b

$w^\star = A^{-1}b$ .

Se usarmos a descida gradiente, iteraremos para esta solução ideal da seguinte maneira

\begin{aligned} W^{k + 1 1} & = W^{k} - α \nabla f (W) \\ = W^{k} - α (UMA W^{k} - b) \end{aligned}

$\begin{align} w^{k+1} &= w^k - \alpha \nabla f(w) \\ &= w^k - \alpha (Aw^k -b) \end{align}$

O artigo continua dizendo: "Existe um espaço muito natural para ver a descida gradiente, onde todas as dimensões agem independentemente - os autovetores de $A$ ". Acho que isso faz sentido, embora minha intuição seja meio confusa.

Toda matriz simétrica $A$ tem uma decomposição de autovalor em que

UMA = Q diag (λ_{1 1}, \dots, λ_{n}) Q^{T} .

$A = Q\text{diag}(\lambda_1,\ldots,\lambda_n)Q^T.$

Onde $\lambda_1 > \ldots > \lambda_n$ e $Q$ é o vetor com os vetores próprios correspondentes como colunas (certo?).

Esta próxima parte é onde eu não entendo o que está acontecendo:

Se fizermos uma mudança de base, $x^k = Q^T(w^k - w^\star)$ , as iterações se separam, tornando-se:

$\begin{aligned} x_{i}^{k + 1} & = x_{i}^{k} - α λ_{i} x_{i}^{k} \\ = (1 - α λ_{i}) x_{i}^{k} & = (1 - α λ_{i})^{k + 1} x_{i}^{0} \end{aligned}$ $\begin{align} x_i^{k+1} &= x_i^k - \alpha \lambda_i x_i^k \\ &=(1-\alpha\lambda_i)x_i^k &= (1- \alpha\lambda_i)^{k+1}x_i^0 \end{align}$
Voltando ao nosso espaço original $w$ , nós podemos ver isso

$w^{k} - w^{⋆} = Q x^{k} = \sum_{i}^{n} = x_{i}^{0} (1 - α λ_{i})^{k} q_{i}$ $w^k - w^\star = Qx^k = \sum\limits_{i}^n = x_i^0(1-\alpha\lambda_i)^kq_i$

O que está acontecendo aqui? Onde está a motivação de tomar $w^k - w^\star$ no eigendomain? O que é $x^k$ ? Por que agora estamos olhando para elementos inviduais do vetor? Eu tentei seguir as caculações, mas $x^{k+1}$ depende de $w^{k+1}$ o que depende $z^k$ , que pensei que estávamos tentando eliminar. Minha pergunta é: alguém pode expandir esses poucos passos com alguma intuição e cálculos? Obrigado.

machine-learning optimization deep-learning

— HBeel
fonte

5

Em muitas aplicações matemáticas, a motivação fica mais clara após a obtenção do resultado. Então, vamos começar com a álgebra.

Suponha que devemos executar o GD por $T$ iterações. Isso nos dará o conjunto ${(w_k)}_{k=1}^T$ .

Vamos fazer uma mudança de base:

$w^k = Qx^k + w^*$ $\iff$ $x^k = Q^T(w^k-w^*)$

Agora temos ${(x_k)}_{k=1}^T$ . O que podemos dizer sobre eles? Vamos olhar para cada coordenada separadamente. Ao substituir o acima e usar a etapa de atualização do GD,

$x_i^{k+1}= (Q^T(w^{k+1}-w^*))_i = (Q^T(w^k-\alpha (Aw^k-b)-w^*))_i$

Arranjar,

$x_i^{k+1}=(Q^T(w^k-w^*))_i-\alpha \cdot (Q^T(Aw^k-b))_i$

O primeiro termo é exatamente $x_i^k$ . Para o segundo mandato, substituímos $A=Qdiag(\lambda _1 \dots \lambda _n)Q^T$ . Isso produz,

$x_i^{k+1}=x_i^k-\alpha \lambda _i x_i^k=(1-\alpha \lambda _i)x_i^k$

Qual foi um único passo. Repetindo até chegarmos ao $x_0$ , Nós temos

$x_i^{k+1}=(1-\alpha \lambda _i)^{k+1}x_i^0$

Tudo isso parece realmente inútil neste momento. Vamos voltar à nossa preocupação inicial, a ${w}$ s. De nossa mudança original de base, sabemos que $w^k-w^*=Qx^k$ . Outra maneira de escrever a multiplicação da matriz $Q$ pelo vetor $x^k$ é tão $\sum_i x_i^kq_i$ . Mas mostramos acima que $x_i^{k}=(1-\alpha \lambda _i)^{k}x_i^0$ . Conectando tudo, obtivemos a fórmula "formulário fechado" desejada para a etapa de atualização do GD:

$w^k-w^*=\sum_i x_i^0(1-\alpha \lambda _i)^{k} q_i$

Esta é essencialmente uma expressão para o "erro" na iteração $k$ de GD (a que distância estamos da solução ideal, $w^*$ ) Como estamos interessados em avaliar o desempenho da GD, essa é a expressão que queremos analisar. Existem duas observações imediatas. A primeira é que esse termo chega a 0 como $k$ vai para o infinito, o que obviamente é uma boa notícia. A segunda é que o erro se decompõe muito bem nos elementos separados de $x_0$ , o que é ainda melhor para o bem de nossa análise. Aqui cito o post original, pois acho que eles explicam bem:

Cada elemento de $x^0$ é o componente do erro no palpite inicial no $Q$ -base. tem $n$ tais erros, e cada um desses erros segue seu próprio caminho solitário ao mínimo, diminuindo exponencialmente com uma taxa composta de $1-\alpha \lambda_i$ . Quanto mais próximo esse número é de 1, mais lento ele converge.

Espero que isso esclareça as coisas o suficiente para você continuar lendo o post. É realmente bom!

— galoosh33
fonte

Uau, muito obrigado, esta é uma excelente resposta! Talvez eu devesse ter lido um pouco mais sobre qual era o objetivo de tudo isso. Fácil ficar desanimado quando você está perdido no primeiro pouco de matemática em uma revista dedicada a explicações claras: P

— HBeel

1

Eu li o mesmo artigo, fiquei preso no mesmo lugar e trabalhei com a ajuda da resposta de galoosh33 .

Eu simplesmente não achei óbvio o passo:

\begin{aligned} x_{Eu}^{k + 1 1} & = (Q^{T} (W^{k} - W^{*}))_{Eu} - α (Q^{T} (UMA W^{k} - b))_{Eu} \\ = x_{Eu} - α λ_{Eu} x_{Eu}^{k} \end{aligned}

$\begin{equation} \begin{split} x_{i}^{k+1} & = (Q^{T}(w^{k} - w^{*}))_{i} - \alpha (Q^{T}(Aw^{k} - b))_{i} \\ & = x_{i} - \alpha \lambda_{i} x_{i}^{k} \end{split} \end{equation}$

Portanto, para aqueles que não querem trabalhar com a álgebra e não vêem imediatamente, como nos livramos $b$ , é de substituição $w^{k} = Qx^{k} + w^{*}$ e $w^{*} = A^{-1}b$ e o fato de os autovetores serem ortogonais $Q^{-1} = Q^{T}$ .

\begin{aligned} (Q^{T} UMA W_{k} - Q^{T} b)_{Eu} & = (Q^{T} UMA Q x^{k} + Q^{T} UMA \overset{{UMA}^{- 1 1} b}{\overset{⏞}{W^{*}}} - Q^{T} b)_{Eu} \\ = (\underset{Eu}{\underset{⏟}{Q^{T} Q}} diag (λ_{1 1}, \dots, λ_{n}) \underset{Eu}{\underset{⏟}{Q^{T} Q}} x^{k} \underset{0 0}{\underset{⏟}{+ Q^{T} \underset{Eu}{\underset{⏟}{UMA {UMA}^{- 1 1}}} b - Q^{T} b}})_{Eu} \\ = λ_{Eu} x_{Eu}^{k} \end{aligned}

$\begin{equation} \begin{split} (Q^{T} A w_{k} - Q^{T}b)_{i} & = (Q^{T} A Q x^{k} + Q^{T} A \overbrace{w^{*}}^{A^{-1}b} - Q^{T}b)_{i} \\ & = (\underbrace{Q^{T} Q}_{I} \text{diag}(\lambda_1, \ldots, \lambda_n) \underbrace{Q^T Q}_{I} x^{k} \underbrace{+ Q^{T} \underbrace{A A^{-1}}_{I} b - Q^{T} b}_{0})_{i} \\ & = \lambda_{i} x_{i}^{k} \end{split} \end{equation}$

— Jakub Wagner
fonte

0

Fornecerei alguns comentários no idioma do aprendizado de máquina que, com sorte, o levarão a uma conclusão lógica útil.

Primeiro, minimizar esse objetivo quadrático é como resolver um problema dos mínimos quadrados (se isso não for óbvio, tente prová-lo como um exercício). Segundo, para qualquer problema de mínimos quadrados, se os recursos são ortogonais, estimar os coeficientes de forma separada ou sequencial (como fazer exatamente uma rodada de descida de coordenadas) é equivalente a estimar em conjunto. (Se isso não for óbvio, suponha que os recursos sejam ortogonais. Você vê isso $A$ deve ser diagonal? Isso significa que cada entrada da solução não depende das outras).

Então agora a pergunta é: como podemos resolver o mesmo problema, mas com uma matriz diagonal no lugar de $A$ ? Terceiro, o $\ell_2$ A norma é invariante ortogonalmente; portanto, se você esquerda ou direita multiplica o que estiver dentro da norma por uma matriz ortogonal (que é interpretada como uma rotação), você pode simplesmente resolver esse problema e depois recuperar a transformação ortogonal no final. Desde a $A$ é simétrico positivo semi-definido, podemos obter essas matrizes ortogonais a partir da decomposição do autovalor de $A$ (também conhecido por "diagonalizando" $A$ )

Voltar às estatísticas: Esse processo às vezes é chamado de clareamento ou pré-clareamento, embora eu acredite que haja uma falta de concordância quanto ao uso desse termo.

Coloque de forma simples e vaga, no espaço próprio da $A$ , as colunas / linhas de $A$ pode ser visto como informações totalmente separadas e não relacionadas.

— Mustafa S Eisa
fonte