A regressão L1 estima mediana, enquanto que as estimativas de regressão L2 significam?

24

Então me fizeram uma pergunta sobre quais medidas centrais L1 (isto é, laço) e L2 (isto é, regressão de cordilheira) estimadas. A resposta é L1 = mediana e L2 = média. Existe algum tipo de raciocínio intuitivo para isso? Ou isso precisa ser determinado algebricamente? Se sim, como faço para fazer isso?

— Bstat
fonte

4

Por L1 / L2 você está se referindo à função objetivo ou às restrições? Se a função objetivo sim, o erro L1 é minimizado com a mediana condicional e L2 a média condicional. Se houver restrições (a que cordão / laço se refere), esta é a maneira errada de pensar sobre isso. Suas "medidas centrais" ainda visam uma média condicional, mas com penalidades diferentes em

β

$\beta$ .

— Muratoa

24

Há uma explicação geométrica simples para o motivo pelo qual a função de perda L1 produz a mediana.

Lembre-se de que estamos trabalhando em uma dimensão, então imagine uma linha numérica se espalhando horizontalmente. Plote cada um dos pontos de dados na linha numérica. Coloque o dedo em algum lugar na linha; seu dedo será sua estimativa atual de candidato.

Suponha que você mova o dedo um pouco para a direita, digamos unidades para a direita. O que acontece com a perda total? Bem, se o seu dedo estava entre dois pontos de dados e você o movia através de um ponto de dados, você aumentou a perda total em para cada ponto de dados à esquerda do seu dedo e diminuiu em para cada ponto de dados para o direito do seu dedo. Portanto, se houver mais pontos de dados à direita do seu dedo do que à esquerda, movê-lo para a direita diminui a perda total. Em outras palavras, se mais da metade dos pontos de dados estiverem à direita do seu dedo, mova-o para a direita. $\delta$ $\delta$ $\delta$

Isso faz com que você mova o dedo em direção a um ponto em que metade dos pontos de dados esteja naquele ponto e metade na direita. Esse ponto é a mediana.

Isso é L1 e a mediana. Infelizmente, não tenho uma explicação semelhante, "toda a intuição, sem álgebra", para L2 e a média.

— DW
fonte

7

Se estamos falando de uma estimativa pontual simples, é um cálculo direto.

\frac{d}{d β} \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β)^{2} = - 2 \frac{1}{n} \sum_{i = 1}^{n} (y_{i} - β) = 0 \Rightarrow β = \frac{1}{n} \sum_{i} y_{i}

$\frac{d}{d \beta} \frac{1}{n}\sum_{i=1}^n (y_i - \beta)^2 = -2\frac{1}{n}\sum_{i=1}^n(y_i - \beta) = 0 \Rightarrow \beta = \frac{1}{n}\sum_i y_i$

— muratoa

3

@muratoa, sim, eu sei a derivação de cálculo, mas a pergunta pede especificamente uma explicação que se concentre na intuição e evite a álgebra. Eu assumiria que o questionador já conhece a derivação do cálculo, mas está procurando algo que ofereça mais intuição.

— DW

Eu pensei que o OP mencionasse regressão, o que sugere que ele está falando sobre a estimativa de y dado x, que é uma média condicional usando mínimos quadrados e a mediana condicional para erro absoluto médio. As mesmas explicações devem funcionar, mas o problema é um pouco diferente. A explicação do cálculo para a média é bem clara e direta. Talvez uma explicação para a média possa ser dada de maneira semelhante aos DWs para a mediana. A média da amostra é uma estimativa imparcial para a média da população.

— Michael R. Chernick

À medida que você afasta a estimativa da amostra, o erro quadrado médio é alterado devido a um aumento no viés. O erro quadrático médio realmente aumenta em d

quando a estimativa adiciona d à média da amostra como a estimativa candidata.

^{2}

$^2$

— Michael R. Chernick

11

Existe uma versão rápida e suja da álgebra dada por muratoa para o caso L1. Observe que, exceto quando

, a derivada de

wrt

é

, que é

se

e

se

. Então

β = y_{i}

$\beta = y_i$

| y_{i} - β |

$| y_i -\beta |$

β

$\beta$

- s g n (y_{i} - β)

$-\mathrm{sgn}(y_i-\beta)$

- 1

$-1$

β < y_{i}

$\beta < y_i$

+ 1

$+1$

β > y_{i}

$\beta > y_i$

, excepto quando

é uma

. A derivada desaparece quando existe o mesmo número de termos positivos e negativos entre os

, que, grosso modo, surge quando

é a mediana do

.

\frac{d}{d β} \frac{1}{n} \sum_{i} | y_{i} - β | = - \frac{1}{n} \sum_{i} s g n (y_{i} - β)

$\frac{\mathrm{d}}{\mathrm{d}\beta} \,\frac{1}{n}\sum_i | y_i -\beta | = -\frac{1}{n}\,\sum_i \mathrm{sgn}(y_i-\beta)$

β

$\beta$

y_{i}

$y_i$

y_{i} - β

$y_i-\beta$

β

$\beta$

y_{i}

$y_i$

— Yves

17

Esta explicação é um resumo dos comentários de muratoa e Yves sobre a resposta da DW. Embora seja baseado em cálculo, achei simples e fácil de entender.

Supondo que temos e querer obter uma nova estimativa com base nelas. A menor perda é obtida quando encontramos que torna zero a derivada da perda. $y_1, y_2, ... y_k$ $\beta$ $\beta$

Perda L1

eu 1 1 = \frac{1 1}{k} \sum_{Eu = 1 1}^{k} | y_{Eu} - β |

$L1=\frac{1}{k}\sum_{i=1}^k|y_i-\beta|$

é 1 quando

, -1 quando

. A derivada é igual a 0 quando existe o mesmo número de termos positivos e negativos entre

, o que significa que

deve ser a mediana de

.

\frac{\partial {eu}_{1 1}}{\partial β} = - \frac{1 1}{k} \sum_{Eu = 1 1}^{k} s g n (y_{Eu} - β)

$\frac{\partial L_1}{\partial\beta}=-\frac{1}{k}\sum_{i=1}^k sgn(y_i-\beta)$

s g n (y_{i} - β)

$sgn(y_i-\beta)$

y_{i} > β

$y_i>\beta$

y_{i} < β

$y_i<\beta$

y_{i} - β

$y_i-\beta$

β

$\beta$

y_{i}

$y_i$

Perda de L2

eu 2 = \frac{1 1}{k} \sum_{Eu = 1 1}^{k} (y_{Eu} - β)^{2}

$L2=\frac{1}{k}\sum_{i=1}^k(y_i-\beta)^2$

\frac{\partial {eu}_{2}}{\partial β} = - \frac{2}{k} \sum_{Eu = 1 1}^{k} (y_{Eu} - β)

$\frac{\partial L_2}{\partial\beta}=-\frac{2}{k}\sum_{i=1}^k(y_i-\beta)$

Portanto, para minimizar a perda de L2,

deve ser a média de

.

\frac{\partial {eu}_{2}}{\partial β} = 0 0 \to β = \frac{1 1}{k} \sum_{Eu = 1 1}^{k} y_{Eu}

$\frac{\partial L_2}{\partial\beta}=0\rightarrow\beta=\frac{1}{k}\sum_{i=1}^k y_i$

β

$\beta$

y_{i}

$y_i$

— chefwen
fonte

3

Acrescentando à resposta da DW com um exemplo ainda mais prático (também para a função de perda de L2):

Imagine uma pequena vila composta de 4 casas próximas umas das outras (por exemplo, 10 metros). A 1 km desses, você tem outra casa muito isolada. Agora, você chega nessa cidade e quer construir sua própria casa em algum lugar. Você quer morar perto das outras casas e ser amigo de todos. Considere esses dois cenários alternativos:

Você decide estar no local em que a distância média a qualquer casa é a menor (isto é, minimizar a função de perda de L1).
- Se você colocar sua casa no centro da vila, estará a 10 metros de distância de 4 casas e a 1 km de uma casa, o que lhe dá uma distância média de cerca de 200 metros (10 + 10 + 10 + 10 + 1000 / 5)
- Se você colocar sua casa a 500 metros da vila, estará a cerca de 500 metros de 5 casas, o que lhe dá uma distância média de 500 metros.
- Se você colocar sua casa ao lado da casa isolada, você estará a 1 km da vila (4 casas) e a cerca de 10 metros de uma casa, o que lhe dá uma distância média de cerca de 800 metros.
Assim, a menor distância média de 100 metros é alcançada através da construção de sua casa na vila. Mais especificamente, você construirá sua casa no meio dessas 4 casas para ganhar mais alguns metros de distância média. E acontece que esse ponto é o " ponto mediano ", que você teria obtido da mesma forma usando a fórmula mediana.
Você decide adotar uma abordagem democrática. Você pergunta a cada um dos seus cinco futuros vizinhos a localização preferida para a sua nova casa. Todos gostam de você e querem que você viva perto deles. Portanto, todos declaram que seu local preferido é o local ao lado de sua própria casa. Você calcula a média de todos os locais votados dos seus cinco vizinhos e o resultado é "200 metros da vila" (média dos votos: 0 + 0 + 0 + 0 + 1000/5 = 200), que é o " ponto médio " das 5 casas, que você teria obtido da mesma forma usando a fórmula média. E esse local é exatamente o mesmo que mimetiza a soma das distâncias ao quadrado (função de perda de L2). Vamos apenas fazer as contas para ver:
- Nesse local, a soma das distâncias ao quadrado é: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
- Se construirmos a casa no centro da vila, nossa soma das distâncias ao quadrado seria: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
- Se construirmos a casa a 100 metros da vila (como em 1), a soma das distâncias ao quadrado é: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
- Se construirmos a casa a 100 metros da casa isolada, a soma das distâncias ao quadrado é: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

Então, sim, é interessante notar que, um pouco contra-intuitivamente, quando minimizamos a soma das distâncias, não acabamos ficando no "meio" no sentido da média, mas no sentido da mediana. Isso é parte do motivo pelo qual o OLS, um dos modelos de regressão mais populares, usa erros quadrados ao invés de erros absolutos.

— Jonathan Zimmermann
fonte

1

Além das respostas já postadas (que foram muito úteis para mim!), Há uma explicação geométrica para a conexão entre a norma L2 e a média.

Para usar a mesma notação que chefwen , a fórmula para perda de L2 é:

eu 2 = \frac{1 1}{k} \sum_{Eu = 1 1}^{k} (y_{Eu} - β)^{2}

$L2 = \frac{1}{k} \sum^{k}_{i=1} (y_i - \beta)^2$

$\beta$ $L2$ $k$

\sqrt{\sum_{Eu = 1 1}^{k} (y_{Eu} - β)^{2}}

$\sqrt { \sum^{k}_{i=1} (y_i - \beta)^2 }$

$y$ $k$ $y$ $\vec{\beta} = (\beta, \beta, ..., \beta)$

$\beta$ $y$ $\vec{\beta}$ $\vec{\beta}$ $\vec{1} = (1, 1, ..., 1)$ $y$ $\vec{1}$

$k = 2$ $y = (2, 6)$ . Como mostrado, projetando no $\vec{1}$ rendimentos $(4, 4)$ como esperamos.

Mostrar que essa projeção sempre gera a média (inclusive quando $k > 2$ ), podemos aplicar a fórmula para projeção :

\begin{aligned} \vec{β} & = {proj}_{\vec{1 1}} y \\ = \frac{y \cdot \vec{1 1}}{| \vec{1 1} |^{2}} \vec{1 1} \\ β & = \frac{\sum_{Eu = 1 1}^{k} y_{Eu}}{k} \end{aligned}

$\begin{alignat}{2} \vec{\beta} &= \operatorname{proj}_{\vec{1}}{y} \\ &= \frac{y \cdot \vec{1}}{|\vec{1}|^2}\vec{1} \\ \beta &= \frac{\sum^k_{i=1} y_i}{k} \end{alignat}$

— Paulo
fonte