Tendência para números naturais no caso de mínimos quadrados

14

Por que procuramos minimizar ao x^2invés de minimizar |x|^1.95ou |x|^2.05. Existem razões pelas quais o número deve ser exatamente dois ou é simplesmente uma convenção que tem a vantagem de simplificar a matemática?

standard-deviation least-squares

— cristão
fonte

5

Essa pergunta é bastante antiga, mas na verdade tenho uma resposta que não aparece aqui e uma que fornece uma razão convincente para que (sob algumas suposições razoáveis) o erro ao quadrado esteja correto, enquanto qualquer outra potência esteja incorreta.

Digamos que têm alguns dados e deseja encontrar a função linear (ou qualquer outra) que melhor prediz os dados, no sentido de que a densidade de $D = \langle(\mathbf{x}_1,y_1),(\mathbf{x}_2,y_2),...,(\mathbf{x}_n,y_n)\rangle$ $f$ para observar esses dados deve ser máxima em relação a (isso é chamado de $p_f(D)$ $f$ estimativa de máxima verossimilhança ). Se assumirmos que os dados são dados por mais um termo de erro normalmente distribuído com desvio padrão , então $f$ $\sigma$ Isso é equivalente a

p_{f} (D) = \prod_{i = 1}^{n} \frac{1}{σ \sqrt{2 π}} e^{- \frac{(y_{i} - f (x_{i}))^{2}}{2 σ^{2}}} .

$p_f(D) = \prod_{i=1}^{n} \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(y_i - f(\mathbf{x}_i))^2}{2\sigma^2}}.$

Assim, maximizando

é conseguido minimizando

\frac{1}{σ^{n} (2 π)^{n / 2}} e^{- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2}} .

$\frac{1}{\sigma^n(2\pi)^{n/2}}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^{n} (y_i - f(\mathbf{x}_i))^2}.$

p_{f} (D)

$p_f(D)$

, isto é, a soma dos termos de erro ao quadrado.

\sum_{i = 1}^{n} (y_{i} - f (x_{i}))^{2}

$\sum_{i=1}^{n} (y_i - f(\mathbf{x}_i))^2$

Isso parece circular, por que você deveria assumir um termo de erro normalmente distribuído?

— Joe

@ Joe Você não deve sempre, mas se a única coisa que você sabe sobre o termo de erro é que ele tem uma média de 0 e um valor absoluto esperado finito, então essa é a suposição de entropia máxima, para que possa substituir qualquer coisa desconhecida função de erro que você realmente possui. Se você tiver informações adicionais sobre a distribuição de erros, suponho que você possa usá-las e encontrar um estimador de probabilidade máxima mais preciso.

"se a única coisa que você sabe sobre o termo de erro é que ele tem uma média de 0 e um valor absoluto esperado finito, essa é a suposição de máxima entropia" - toda derivação das distribuições máximas de entropia que eu vi deriva da distribuição Laplace como a distribuição maxent para um valor absoluto esperado finito (conhecido), enquanto o gaussiano é o máximo para um valor absoluto esperado quadrado finito (conhecido), veja como um exemplo stats.stackexchange.com/questions/82410/… tem citações que discordam ?

— Joe

Você sabe, eu não. Eu vou assumir que você está certo. (Embora eu não consiga descobrir como editar meu comentário por algum motivo)

14

Não há motivo para você não tentar minimizar outras normas além de x ^ 2; já existem livros inteiros escritos sobre regressão quantílica, por exemplo, o que minimiza mais ou menos | x | se você estiver trabalhando com a mediana. Geralmente, é mais difícil de fazer e, dependendo do modelo de erro, pode não fornecer bons estimadores (dependendo se isso significa estimadores de baixa variância ou não imparciais ou baixos de MSE no contexto).

Quanto ao motivo pelo qual preferimos momentos inteiros a momentos com valor real, a principal razão é provável que, enquanto potências inteiras de números reais sempre resultem em números reais, potências não inteiras de números reais negativos criem números complexos, exigindo o uso de um valor absoluto. Em outras palavras, enquanto o terceiro momento de uma variável aleatória com valor real é real, o 3.2º momento não é necessariamente real e, portanto, causa problemas de interpretação.

Fora isso ...

Expressões analíticas para momentos inteiros de variáveis aleatórias são geralmente muito mais fáceis de encontrar do que momentos com valor real, seja gerando funções ou algum outro método. Os métodos para minimizá-los são, portanto, mais fáceis de escrever.
O uso de momentos inteiros leva a expressões que são mais tratáveis do que momentos com valor real.
Não consigo pensar em uma razão convincente de que (por exemplo) o momento 1,95 do valor absoluto de X forneça melhores propriedades de ajuste do que (por exemplo) o segundo momento de X, embora isso possa ser interessante investigar
Específico à norma L2 (ou erro ao quadrado), pode ser escrito por meio de produtos pontuais, o que pode levar a grandes melhorias na velocidade da computação. É também o único espaço Lp que é um espaço Hilbert, que é um recurso interessante de se ter.

— Rico
fonte

8

Tentamos minimizar a variação que resta nos descritores. Por que variação? Leia esta pergunta ; isso também vem junto com a suposição (quase silenciosa) de que os erros são normalmente distribuídos.

Extensão:
dois argumentos adicionais:

Para variações, temos essa "lei" legal de que a soma das variações é igual à variação da soma, para amostras não correlacionadas. Se assumirmos que o erro não está correlacionado com o caso, minimizar o resíduo de quadrados funcionará diretamente para maximizar a variação explicada, o que talvez seja uma medida de qualidade não tão boa, mas ainda popular.
Se assumirmos a normalidade de um erro, o estimador de erro de mínimos quadrados é o de probabilidade máxima.

— Comunidade
fonte

1

A resposta nesse outro segmento não explica realmente por que 2 é um valor melhor do que outros valores muito próximos de 2, mas que não são números naturais.

— Christian

Eu acho que sim; ainda vou tentar estender a resposta.

Portanto, se os erros não são normalmente distribuídos, mas, por exemplo, de acordo com outra distribuição estável da Lévy, pode valer a pena usar um expoente diferente de 2?

— Raskolnikov 28/11

Lembre-se de que a distribuição normal é a mais "cautelosa" para a variação conhecida (porque possui entropia máxima entre todas as densidades com variação fixa). Deixa o máximo a ser dito pelos dados. Ou, dito de outra forma, para conjuntos de dados "grandes" com a mesma variação ", é necessário" tentar " incrivelmente para obter uma distribuição diferente da normal.

— probabilityislogic

8

Nos mínimos quadrados comuns, a solução para (A'A) ^ (- 1) x = A'b minimiza a perda de erro ao quadrado e é a solução de probabilidade máxima.

Então, principalmente porque a matemática foi fácil nesse caso histórico.

Mas geralmente as pessoas minimizam muitas funções de perda diferentes , como exponencial, logística, cauchy, laplace, huber, etc. Essas funções de perda mais exóticas geralmente exigem muitos recursos computacionais e não têm soluções de forma fechada (em geral), portanto eles estão apenas começando a se tornar mais populares agora.

— Joe
fonte

1

+1 por introduzir a ideia de perda. (Mas não são "exponenciais" etc., distribuições , não funções de perda?) Perda historicamente linear foi a primeira abordagem formalmente desenvolvida, em 1750, e havia uma solução geométrica direta disponível para ela. Creio que Laplace estabeleceu a relação entre isso e a distribuição exponencial dupla em uma publicação de 1809 (para a qual o MLE minimizará o erro absoluto, e não o quadrado). Assim, a perda ao quadrado não se distingue exclusivamente pelos critérios de ter um MLE e ser matematicamente fácil.

— whuber

São funções de distribuição e perda em diferentes contextos.

— 31410 Joe

Pressionei Enter muito rapidamente na resposta anterior - a perda exponencial está amplamente associada ao aumento (veja Friedman Hastie e Statistical View of Boosting) de Friedman Hastie e Tibshirani, onde é mais uma perda do que uma distribuição. corresponde à perda de valor absoluto - então, na maioria das vezes, eu estava sendo extremamente desleixado, obrigado por apontar. Mas enquanto a perda de L1 tem uma solução geométrica, ela não é analiticamente fechada, então dificilmente chamaria sua solução de fácil.

— Joe

1

$-1\times-1 = 1$ $x$

— Ian Turner
fonte