Abandono na regressão linear

Eu tenho lido o artigo original sobre desistência, ( https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf ) e na seção de regressão linear, afirma-se que:

$\mathbb{E}_{R\sim Bernoulli(p)}\left[\| y\ - (R*X)w\|^2\right]$

reduz para:

$\|y - pXw\|^2 + p(1-p) \|\Gamma w\|^2$

Estou tendo problemas para entender como eles chegaram a esse resultado. Alguém pode ajudar?

regression dropout

— doug
fonte

O que é

Γ

$\Gamma$ aqui?

— O Laconic

I escreveu um ensaio longform sobre este tema: madrury.github.io/jekyll/update/statistics/2017/08/12/...

— Matthew Drury

$\newcommand{E}{\text{E}}$ Primeiro, deixe por conveniência. Expandindo a perda, temos Tomando a expectativa em , temos O valor esperado de uma matriz é a matriz dos valores esperados em células, então então Para o último termo, portanto Se $R * X = M$

‖ y - M w ‖^{2} = y^{T} y - 2 w^{T} M^{T} y + w^{T} M^{T} M w .

$\|y - Mw\|^2 = y^Ty - 2w^TM^Ty + w^TM^TMw.$

R

$R$

E_{R} (‖ y - M w ‖^{2}) = y^{T} y - 2 w^{T} (E M)^{T} y + w^{T} E (M^{T} M) w .

$\E_R\left(\|y - Mw\|^2\right) = y^Ty - 2w^T(\E M)^Ty + w^T\E(M^TM)w.$

(E_{R} M)_{i j} = E_{R} ((R * X)_{i j}) = X_{i j} E_{R} (R_{i j}) = p X_{i j}

$(\E_R M)_{ij} = \E_R((R * X)_{ij}) = X_{ij}\E_R(R_{ij}) = p X_{ij}$

2 w^{T} (E M)^{T} y = 2 p w^{T} X^{T} y .

$2w^T(\E M)^Ty = 2pw^TX^Ty.$

(M^{T} M)_{i j} = \sum_{k = 1}^{N} M_{k i} M_{k j} = \sum_{k = 1}^{N} R_{k i} R_{k j} X_{k i} X_{k j}

$(M^TM)_{ij} = \sum_{k=1}^N M_{ki}M_{kj} = \sum_{k=1}^N R_{ki}R_{kj}X_{ki}X_{kj}$

(E_{R} M^{T} M)_{i j} = \sum_{k = 1}^{N} E_{R} (R_{k i} R_{k j}) X_{k i} X_{k j} .

$(\E_R M^TM)_{ij} = \sum_{k=1}^N \E_R(R_{ki}R_{kj})X_{ki}X_{kj}.$

i \neq j

$i \neq j$ então eles são independentes, de modo que os elementos fora da diagonal resultam em . Para os elementos diagonais, temos

p^{2} (X^{T} X)_{i j}

$p^2 (X^TX)_{ij}$

\sum_{k = 1}^{N} E_{R} (R_{k i}^{2}) X_{k i}^{2} = p (X^{T} X)_{i i} .

$\sum_{k=1}^N \E_R(R_{ki}^2)X_{ki}^2 = p(X^TX)_{ii}.$

Terminando isso, podemos observar que e encontramos Em , mostrei que todo elemento fora da diagonal é zero, então o resultado é O documento define então que significa que estão feitos.

‖ y - p X w ‖^{2} = y^{T} y - 2 p w^{T} X^{T} y + p^{2} w^{T} X^{T} X w

$\|y - pXw\|^2 = y^Ty - 2pw^TX^Ty + p^2w^TX^TXw$

E_{R} ‖ y - M w ‖^{2} = y^{T} y - 2 p w^{T} X^{T} y + w^{T} E_{R} (M^{T} M) w = ‖ y - p X w ‖^{2} - p^{2} w^{T} X^{T} X w + w^{T} E_{R} (M^{T} M) w = ‖ y - p X w ‖^{2} + w^{T} (E_{R} (M^{T} M) - p^{2} X^{T} X) w .

E_{R} (M^{T} M) - p^{2} X^{T} X

$\E_R(M^TM) - p^2 X^TX$

E_{R} (M^{T} M) - p^{2} X^{T} X = p (1 - p) diag (X^{T} X) .

$\E_R(M^TM) - p^2 X^TX = p(1-p)\text{diag}(X^TX).$

Γ = diag (X^{T} X)^{1 / 2}

$\Gamma = \text{diag}(X^TX)^{1/2}$

‖ Γ w ‖^{2} = w^{T} diag (X^{T} X) w

$\|\Gamma w\|^2 = w^T\text{diag}(X^TX)w$

— jld
fonte