Além das respostas já postadas (que foram muito úteis para mim!), Há uma explicação geométrica para a conexão entre a norma L2 e a média.
Para usar a mesma notação que chefwen , a fórmula para perda de L2 é:
L 2 = 1k∑i = 1k( yEu- β)2
βL 2k
∑i = 1k( yEu- β)2----------⎷
ykyβ⃗ = ( β, β, . . . , β)
βyβ⃗ β⃗ 1 1⃗ = ( 1 , 1 , . . . , 1 )y1 1⃗
k = 2y= ( 2 , 6 ). Como mostrado, projetando no1 1⃗ rendimentos ( 4 , 4 ) como esperamos.
Mostrar que essa projeção sempre gera a média (inclusive quando k > 2), podemos aplicar a fórmula para projeção :
β⃗ β= proj1 1⃗ y= y⋅ 1⃗ | 1⃗ |21 1⃗ = ∑ki = 1yEuk