Quais são as etapas para converter a soma ponderada dos quadrados em forma de matriz?

Eu sou novo na conversão de fórmulas para matriz. Mas isso é necessário para um código eficiente de aprendizado de máquina. Então, eu quero entender o caminho "certo", não as coisas de cowboy que eu faço.

Tudo bem, aqui vamos nós, estou tentando converter a soma ponderada dos quadrados do formulário abaixo em forma de matriz. Costumo ver a forma da matriz como sendo equivalente à abaixo, e nenhuma explicação é dada sobre como é derivada.

J (w) = \sum_{i = 1}^{m} u_{i} (w^{T} x_{i} - y_{i})^{2}

$J(w)=\sum_{i=1}^m u_i (w^T x_i - y_i)^2$

onde é o peso para cada erro de amostra . Além disso, , , , , . é o valor previsto, o resultado da multiplicação de um vetor de peso por um vetor de característica. $u_i$ $_i$ $x_i \in \mathbb{R^n}$ $w \in \mathbb{R^n}$ $y \in \mathbb{R}$ $u_i \in \mathbb{R}$ $i=1,...,m$ $w^T x_i$

Aqui está o que penso e sou criativo. Portanto, fique à vontade para pular para o final, se eu for pela tangente.

Seja $r$ um vetor de coluna de funções que represente o erro não-quadrado. Podemos representar $(w^T x_i - y_i)^2$ sobre $i=1,...,m$ como

\begin{matrix} (1) & r^{2} = [\begin{matrix} r_{1} & r_{2} & \dots & r_{m} \end{matrix}] [\begin{matrix} r_{1} \\ r_{2} \\ ⋮ \\ r_{m} \end{matrix}] \end{matrix}

$r^2 = \begin{bmatrix}r_1 & r_2 & \cdots & r_m\end{bmatrix} \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_m \\ \end{bmatrix} \tag{1}\label{1}$

Os resultados do vetor $1 \times m$ multiplicado pelo vetor $m \times 1$ são uma matriz $1 \times 1$ (escalar).

Deixe ser um vector de pesos que pesa cada amostra de erro. Como precisamos ponderar os erros ao quadrado, precisamos incorporar na Fórmula antes de obter o escalar. Como queremos que o primeiro permaneça como um vetor de , definimos como uma matriz diagonal com os termos diagonais vindos de . Agora temos: $u$ $u$ $\ref{1}$ $r$ $1 \times m$ $U$ $u$

\begin{matrix} (2) & J (W) = [\begin{matrix} r_{1} & r_{2} & \dots & r_{m} \end{matrix}] [\begin{matrix} {você}_{1} & 0 0 & \dots & 0 0 \\ 0 0 & {você}_{2} & \dots & 0 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 0 & 0 0 & \dots & {você}_{m} \end{matrix}] [\begin{matrix} r_{1} \\ r_{2} \\ ⋮ \\ r_{m} \end{matrix}] \end{matrix}

$J(w) = \begin{bmatrix}r_1 & r_2 & \cdots & r_m\end{bmatrix} \begin{bmatrix} u_1 & 0 & \cdots & 0\\ 0 & u_2 & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & u_m\\ \end{bmatrix} \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_m \\ \end{bmatrix} \tag{2}\label{2}$

Podemos simplificar isso para

\begin{matrix} (3) & J (W) = r^{T} você r \end{matrix}

$J(w) = r^T U r \tag{3}\label{3}$

Agora nós expandimos . Nós tínhamos $r$ $x_i \in \mathbb{R^n}$ multiplicado por , fornecendo-nos onde X agora é uma matriz e é um vetor de coluna . Seja y o vetor da coluna representando os rótulos . Agora . Substituímos isso na fórmula , fornecendo-nos a soma final ponderada dos quadrados na forma de matriz: $w \in \mathbb{R^n}$ $Xw$ $m \times n$ $w$ $n \times 1$ $m \times 1$ $y = 1,...,m$ $r = (Xw - y)$ $\ref{3}$

\begin{matrix} 4) & J (W) = (X W - y)^{T} você (X W - y) \end{matrix}

$J(w) = (Xw - y)^T U(Xw-y) \tag{4}\label{4}$

Primeiro, isso faz sentido? Segundo, e mais importante, é assim que você deve fazer isso?

obrigado

regression machine-learning linear-algebra

— vega
fonte

Isso: math.stackexchange.com/questions/198257/… pode ajudá-lo!

— Kjetil b halvorsen

+1: Engraçado que você pensa que está fazendo 'coisas de caubói'. Esta é exatamente a maneira de fazê-lo, apesar de eu nunca escrever isso de maneira abrangente (trabalho tão bom!). Este é um capítulo de um livro do meu curso de econometria 1 durante meu estudo de econometria. A página 120 explica como reescrever uma função (fácil) na notação matricial e a página 121 é seu exemplo sem os pesos (embora seja uma notação ligeiramente diferente). Se bem me lembro, outro capítulo também lida com os estimadores WLS (que é basicamente sua expressão).

— Marcel10

Parece bom para mim.

— Matthew Gunn

Arriscarei uma resposta para esta pergunta: tudo o que você apresentou está correto.

O que você basicamente derivou é o teorema de Gauss-Markov: o estimador de mínimos quadrados ponderados é o melhor estimador linear e imparcial para dados ponderados. Esse estimador minimiza a soma dos quadrados ponderados (sua primeira exibição) e é fornecido por: . Aqui $\hat{\beta}_{WLS} = \left( \mathbf{X}^T\mathbf{W}\mathbf{X} \right) \left( \mathbf{X}^T \mathbf{W} Y \right)$ $\mathbf{X}$ é a matriz de design com a primeira coluna definida como o vetor de um (este é o termo de interceptação). $\mathbf{1}$ $n \times 1$

Este resultado se aplica a uma matriz de covariância arbitrária. No entanto, dados independentes ponderados são representados com um vetor de pesos ao longo da diagonal da matriz de pesos. (sua notação tem como coeficiente de regressão e como peso, portanto, para evitar confusão, a matriz de design seria e . $w$ $u$ $\mathbf{X} = [x], \mathbf{W} = \text{diag}(u),$ $\beta=[w]$

A prova do teorema de Gauss Markov é por contradição. Veja aqui . O que isso significa é que não derivamos analiticamente esse estimador diretamente da função de perda. Você pode ter visto essa abordagem usada para derivar equações de estimativa de regressão linear e logística.

— AdamO
fonte