O que justifica esse cálculo da derivada de uma função de matriz?

No curso de aprendizado de máquina de Andrew Ng, ele usa esta fórmula:

$\nabla_A tr(ABA^TC) = CAB + C^TAB^T$

e ele faz uma prova rápida, que é mostrada abaixo:

$\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T \\ = C^TAB^T + CAB$

A prova parece muito densa sem comentários e estou tendo problemas para entendê-la. O que exatamente aconteceu da segunda para a terceira igualdade?

machine-learning matrix derivative

— MoneyBall
fonte

Ele deve estar fazendo suposições especiais sobre as dimensões de , e , pois, caso contrário, essa fórmula não fará sentido em geral. No lado da mão esquerda deve ser um matriz, um matriz, e um matriz para arbitrárias inteiros não negativos . Mas então os produtos à direita não seriam definidos a menos que .

A

$A$

B

$B$

C

$C$

A

$A$

i \times j

$i\times j$

B

$B$

j \times j

$j\times j$

C

$C$

i \times m

$i\times m$

i, j, m

$i,j,m$

i = m

$i=m$

— whuber

@whuber eu vejo. Dadas as suposições, ainda não entendo como a transição ocorreu da segunda para a terceira linha em que ele introduz .

\circ

$\circ$

— precisa saber é o seguinte

Entre a segunda e a terceira linha, ele deixa . Entre a segunda e a terceira linha, ele usou a regra do produto. depois, ele usa a regra da cadeia para se livrar de .

f (A) = A B

$f(A)=AB$

f ()

$f()$

— Brian Borchers

Existe um abuso sutil, mas pesado, da notação que torna muitos dos passos confusos. Vamos abordar esta questão voltando às definições de multiplicação, transposição, traços e derivadas de matrizes. Para aqueles que desejam omitir as explicações, vá para a última seção "Reunindo tudo" para ver como uma demonstração rigorosa pode ser curta e simples.

Notação e conceitos

Dimensões

Para que a expressão faça sentido quando é uma matriz , deve ser uma matriz (quadrada) e deve ser uma matriz , de onde o produto é matriz. Para pegar o traço (que é a soma dos elementos diagonais, ), então , tornando uma matriz quadrada. $ABA^\prime C$ $A$ $m\times n$ $B$ $n\times n$ $C$ $m\times p$ $m\times p$ $\operatorname{Tr}(X)=\sum_i X_{ii}$ $p=m$ $C$

Derivados

A notação " " parece referir-se ao derivado de uma expressão em relação a . Ordinariamente, a diferenciação é uma operação realizada em funções . O derivado num ponto é uma transformação linear . Ao escolher as bases para esses espaços vetoriais, essa transformação pode ser representada como uma matriz Esse não é o caso aqui! $\nabla_A$ $A$ $f:\mathbb{R}^N\to\mathbb{R}^M$ $x\in \mathbb{R}^N$ $Df(x):\mathbb{R}^N\to\mathbb{R}^M$ $M\times N$

Matrizes como vetores

Em vez disso, está sendo considerado como um elemento de : seus coeficientes estão sendo desenrolados (geralmente linha por linha ou coluna por coluna) em um vetor de comprimento . A função possui valores reais, de onde . Conseqüentemente, deve ser uma matriz de : é um vetor de linha que representa uma forma linear em . No entanto, os cálculos da pergunta usam uma maneira diferente de representar formas lineares: seus coeficientes são revertidos em matrizes. $A$ $\mathbb{R}^{mn}$ $N=mn$ $f(A)=\operatorname{Tr}(ABA^\prime C)$ $M=1$ $Df(x)$ $1\times mn$ $\mathbb{R}^{mn}$ $m\times n$

O rastreio como uma forma linear

Seja uma matriz constante . Então, por definição do traço e da multiplicação da matriz, $\omega$ $m\times n$

\begin{aligned} Tr (A ω^{'}) & = \sum_{i = 1}^{m} (A ω^{'})_{i i} = \sum_{i = 1}^{m} (\sum_{j = 1}^{n} A_{i j} (ω^{'})_{j i}) = \sum_{i, j} ω_{i j} A_{i j} \end{aligned}

$\eqalign{ \operatorname{Tr}(A\omega^\prime) &= \sum_{i=1}^m(A\omega^\prime)_{ii} = \sum_{i=1}^m\left(\sum_{j=1}^n A_{ij}(\omega^\prime)_{ji}\right) = \sum_{i,j} \omega_{ij}A_{ij} }$

Isso expressa a combinação linear mais geral possível dos coeficientes de : é uma matriz da mesma forma que e seu coeficiente na linha coluna é o coeficiente de na combinação linear. Como , os papéis de e podem ser alterados, fornecendo a expressão equivalente $A$ $\omega$ $A$ $i$ $j$ $A_{ij}$ $\omega_{ij}A_{ij}=A_{ij}\omega_{ij}$ $\omega$ $A$

\begin{matrix} (1) & \sum_{i, j} ω_{i j} A_{i j} = Tr (A ω^{'}) = Tr (ω A^{'}) . \end{matrix}

$\sum_{i,j} \omega_{ij}A_{ij} = \operatorname{Tr}(A\omega^\prime) = \operatorname{Tr}(\omega A^\prime).\tag{1}$

Ao identificar uma matriz constante com uma das funções ou , podemos representar linear forma no espaço de matrizes como matrizes. (Não as confunda com derivadas de funções de a !) $\omega$ $A\to \operatorname{Tr}(A \omega^\prime)$ $A\to \operatorname{Tr}(\omega A^\prime)$ $m\times n$ $m\times n$ $\mathbb{R}^n$ $\mathbb{R}^m$

Computando uma derivada

A definição

As derivadas de muitas das funções da matriz encontradas nas estatísticas são calculadas com mais facilidade e confiabilidade a partir da definição: você realmente não precisa recorrer a regras complicadas de diferenciação da matriz. Essa definição diz que é diferenciável em se e somente se houver uma transformação linear tal que $f$ $x$ $L$

f (x + h) - f (x) = L h + o (| h |)

$f(x+h) - f(x) = Lh + o(|h|)$

para arbitrariamente pequenos deslocamentos . Os meios de notação pequenos-oh que o erro feitas na aproximação à diferença de por é arbitrariamente menor do que o tamanho de para suficientemente pequeno . Em particular, sempre podemos ignorar erros proporcionais a . $h\in \mathbb{R}^N$ $f(x+h)-f(x)$ $Lh$ $h$ $h$ $|h|^2$

O cálculo

Vamos aplicar a definição à função em questão. Multiplicando, expandindo e ignorando o termo com um produto de dois , $h$

\begin{matrix} (2) & \begin{aligned} f (A + h) - f (A) & = Tr ((A + h) B (A + h)^{'} C) - Tr (A B A^{'} C) \\ = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) . \end{aligned} \end{matrix}

$\eqalign{ f(A+h)-f(A) &= \operatorname{Tr}((A+h)B(A+h)^\prime C) - \operatorname{Tr}(ABA^\prime C) \\ &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|).\tag{2} }$

Para identificar a derivada , devemos colocar isso na forma . O primeiro termo do lado direito é já nesta forma, com . O outro termo à direita tem o formato para . Vamos escrever isso: $L=Df(A)$ $(1)$ $\omega = BA^\prime C$ $\operatorname{Tr}(Xh^\prime C)$ $X=AB$

\begin{matrix} (3) & Tr (X h^{'} C) = \sum_{i = 1}^{m} \sum_{j = 1}^{n} \sum_{k = 1}^{m} X_{i j} h_{k j} C_{k i} = \sum_{i, j, k} h_{k j} (C_{k i} X_{i j}) = Tr ((C X) h^{'}) . \end{matrix}

$\operatorname{Tr}(Xh^\prime C) = \sum_{i=1}^m\sum_{j=1}^n\sum_{k=1}^m X_{ij} h_{kj} C_{ki} = \sum_{i,j,k}h_{kj} \left(C_{ki}X_{ij}\right) =\operatorname{Tr}((CX)h^\prime).\tag{3}$

Lembrando , pode ser reescrito $X=AB$ $(2)$

f (A + h) - f (A) = Tr (h B A^{'} C) + Tr (C A B h^{'}) + o (| h |) .

$f(A+h) - f(A) = \operatorname{Tr}(h\, BA^\prime C\,) + \operatorname{Tr}(CAB\, h^\prime\,)+o(|h|).$

É nesse sentido que podemos considerar que a derivada de em é porque essas matrizes jogam os papéis de nas fórmulas de rastreamento . $f$ $A$

D f (A) = (B A^{'} C)^{'} + C A B = C^{'} A B^{'} + C A B,

$Df(A) = (BA^\prime C)^\prime + CAB = C^\prime A B^\prime + CAB,$

ω

$\omega$

(1)

$(1)$

Juntando tudo

Aqui, então, está uma solução completa.

Seja uma matriz , uma matriz e uma matriz . Seja . Seja uma matriz com coeficientes arbitrariamente pequenos. Porque (por identidade ) é diferenciável e sua derivada é a forma linear determinada pela matriz $A$ $m\times n$ $B$ $n\times n$ $C$ $m\times m$ $f(A) = \operatorname{Tr}(ABA^\prime C)$ $h$ $m\times n$ $(3)$
$\begin{aligned} f (A + h) - f (A) & = Tr (h B A^{'} C) + Tr (A B h^{'} C) + o (| h |) \\ = Tr (h (C^{'} A B^{'})^{'} + (C A B) h^{'}) + o (| h |), \end{aligned}$ $\eqalign{f(A+h) - f(A) &= \operatorname{Tr}(hBA^\prime C) +\operatorname{Tr}(ABh^\prime C) + o(|h|) \\ &=\operatorname{Tr}(h(C^\prime A B^\prime)^\prime + (CAB)h^\prime) + o(|h|),}$ $f$ $C^{'} A B^{'} + C A B .$ $C^\prime A B^\prime + CAB.$

Como isso ocupa apenas metade do trabalho e envolve apenas as manipulações mais básicas de matrizes e traços (multiplicação e transposição), deve ser considerada uma demonstração mais simples - e sem dúvida mais perspicaz - do resultado. Se você realmente deseja entender as etapas individuais da demonstração original, pode ser proveitoso compará-las com os cálculos mostrados aqui.

— whuber
fonte

É útil saber que, em geral, sempre que as matrizes tiverem tamanhos compatíveis. Conhecer isso torna (3) um passo trivial.

tr (A B C) = tr (C A B)

$\mbox{tr}(ABC)=\mbox{tr}(CAB)$

— Brian Borchers

@Amoeba Não sei dizer se você está tentando ser engraçado ou não. Nem a pergunta nem a resposta têm nada a ver diretamente com derivadas parciais. A forma é explicitamente uma forma linear definida no espaço vetorial de matrizes reais. Quando alguém afirma que a derivada de uma função em um ponto é igual a alguma matriz , o que eles significam é que é linear formulário fornecido por .

(1)

$(1)$

Mat (m, n)

$\operatorname{Mat}(m,n)$

m \times n

$m\times n$

f : Mat (m, n) \to R

$f:\operatorname{Mat}(m,n)\to\mathbb{R}$

A

$A$

ω

$\omega$

D f (A)

$Df(A)$

X :\to Tr (X ω^{'})

$X:\to\operatorname{Tr}(X\omega^{\,\prime})$

— whuber

@ Ammoeba Isso é exatamente correto - justifica amplamente as afirmações na primeira linha desta resposta. É por isso que escrevi " nesse sentido" e, posteriormente no resumo, usei a frase "determinado por" em vez de "igual". Não negarei que a explicação tenha sido desafiadora; Vou pensar em como esclarecer isso e agradeço todos os seus comentários e sugestões.

— whuber

@ user10324 A maior parte do que eu publico neste site é minha própria formulação - raramente consulto fontes (e as documento quando o faço). Esses posts são destilações da leitura de muitos livros e papéis. Alguns dos melhores livros não são aqueles que são matematicamente rigorosos, mas que explicam e ilustram lindamente as idéias subjacentes. Os primeiros que vêm à mente - em ordem de sofisticação - são Freedman, Pisani, & Purves, Statistics (qualquer edição); Jack Kiefer, Introdução à Inferência Estatística ; e Steven Shreve, Cálculo Estocástico para Finanças II .

— whuber

@ Whuber Eu finalmente entendo qual é a forma linear do traço. Peço desculpas por fazer a mesma pergunta novamente em postagens separadas quando pude ler sua explicação com mais cuidado. Eu tenho mais uma questão. Se sua equação puder ser aplicada para encontrar derivadas de qualquer função da matriz, tem a mesma dimensão que ? Então, se , então ?

f (x + h) - f (x) = L h + o (| h |)

$f(x+h)−f(x)=Lh+o(|h|)$

h

$h$

x

$x$

x \in R^{m \times n}

$x \in \mathbb{R}^{m \times n}$

h \in R^{m \times n}

$h \in \mathbb{R}^{m \times n}$

— precisa saber é o seguinte