Por que geralmente optamos por minimizar a soma dos erros quadrados (SSE) ao ajustar um modelo?


23

A questão é muito simples: por que, quando tentamos ajustar um modelo aos nossos dados, lineares ou não lineares, geralmente tentamos minimizar a soma dos quadrados dos erros para obter nosso estimador para o parâmetro do modelo? Por que não escolher outra função objetiva para minimizar? Entendo que, por razões técnicas, a função quadrática é mais agradável do que algumas outras funções, por exemplo, soma do desvio absoluto. Mas essa ainda não é uma resposta muito convincente. Além dessa razão técnica, por que, em particular, as pessoas são a favor desse "tipo euclidiano" de função à distância? Existe um significado ou interpretação específica para isso?

A lógica por trás do meu pensamento é a seguinte:

Quando você tem um conjunto de dados, primeiro configura seu modelo fazendo um conjunto de suposições funcionais ou distributivas (por exemplo, alguma condição de momento, mas não toda a distribuição). No seu modelo, existem alguns parâmetros (suponha que seja um modelo paramétrico), então você precisa encontrar uma maneira de estimar consistentemente esses parâmetros e, esperançosamente, seu estimador terá baixa variação e algumas outras propriedades interessantes. Se você minimizar o SSE ou LAD ou alguma outra função objetiva, acho que são apenas métodos diferentes para obter um estimador consistente. Seguindo essa lógica, pensei que as pessoas usassem o quadrado mínimo deve ser 1) produz estimador consistente do modelo 2) outra coisa que eu não conheço.

Na econometria, sabemos que no modelo de regressão linear, se você assumir que os termos do erro têm 0 condicionamento médio nos preditores e a homoscedasticidade e os erros não estiverem correlacionados entre si, a minimização da soma do erro quadrado fornecerá um estimador CONSISTENTE do seu modelo parâmetros e pelo teorema de Gauss-Markov, esse estimador é AZUL. Portanto, isso sugere que, se você optar por minimizar alguma outra função objetiva que não seja o SSE, não haverá garantia de obter um estimador consistente do parâmetro do seu modelo. Meu entendimento está correto? Se estiver correto, a minimização do SSE, em vez de alguma outra função objetiva, pode ser justificada pela consistência, o que é aceitável, de fato, melhor do que dizer que a função quadrática é melhor.

Na prática, eu realmente vi muitos casos em que as pessoas minimizam diretamente a soma dos erros quadrados sem primeiro especificar claramente o modelo completo, por exemplo, as premissas distributivas (suposições de momento) sobre o termo do erro. Então, parece-me que o usuário desse método quer apenas ver o quão perto os dados se encaixam no 'modelo' (eu uso aspas, pois as suposições do modelo provavelmente estão incompletas) em termos da função de distância quadrada.

Uma questão relacionada (também relacionada a este site) é: por que, quando tentamos comparar modelos diferentes usando a validação cruzada, usamos novamente o SSE como critério de julgamento? ou seja, escolha o modelo que tem menos SSE? Por que não outro critério?


Respostas:


14

Embora sua pergunta seja semelhante a várias outras perguntas no site, aspectos dessa pergunta (como sua ênfase na consistência) me fazem pensar que não estão suficientemente perto de serem duplicadas.

Por que não escolher outra função objetiva para minimizar?

Por que não? Se seu objetivo é diferente de mínimos quadrados, você deve abordá-lo!

No entanto, os mínimos quadrados têm várias propriedades agradáveis ​​(além disso, uma conexão íntima com meios de estimativa , que muitas pessoas desejam, e uma simplicidade que a torna uma primeira escolha óbvia ao ensinar ou tentar implementar novas idéias).

Além disso, em muitos casos, as pessoas não têm uma função objetiva clara, portanto, há uma vantagem em escolher o que está prontamente disponível e amplamente compreendido.

Dito isto, os mínimos quadrados também têm propriedades menos agradáveis ​​(sensibilidade a valores extremos, por exemplo) - então, às vezes, as pessoas preferem um critério mais robusto.

minimizar a soma do erro quadrado fornecerá um estimador CONSISTENTE dos parâmetros do seu modelo

Os mínimos quadrados são não um requisito para consistência. A consistência não é um obstáculo muito alto - muitos estimadores serão consistentes. Quase todos os estimadores que as pessoas usam na prática são consistentes.

e pelo teorema de Gauss-Markov, esse estimador é AZUL.

Mas em situações em que todos os estimadores lineares são ruins (como seria o caso de caudas pesadas extremas, por exemplo), não há muita vantagem no melhor.

se você optar por minimizar alguma outra função objetiva que não seja o SSE, não há garantia de que você obterá um estimador consistente do seu parâmetro de modelo. Meu entendimento está correto?

não é difícil encontrar estimadores consistentes; portanto, isso não é uma justificativa especialmente boa dos mínimos quadrados

por que, quando tentamos comparar modelos diferentes usando a validação cruzada, novamente usamos o SSE como critério de julgamento? [...] por que não outro critério?

Se seu objetivo é melhor refletido por outra coisa, por que não?

Não faltam pessoas que usam outras funções objetivas além dos mínimos quadrados. Ele aparece na estimativa M, nos estimadores menos aparados, na regressão quantílica e quando as pessoas usam as funções de perda LINEX, apenas para citar alguns.

estava pensando que, quando você tem um conjunto de dados, primeiro configura seu modelo, ou seja, faz um conjunto de suposições funcionais ou distributivas. No seu modelo, existem alguns parâmetros (suponha que seja um modelo paramétrico),

Presumivelmente, os parâmetros das premissas funcionais são o que você está tentando estimar; nesse caso, as premissas funcionais são o que você faz menos quadrados (ou qualquer outra coisa) ao redor ; eles não determinam o critério, são o que o critério está estimando.

Por outro lado, se você tem uma suposição distributiva, possui muitas informações sobre uma função objetiva mais adequada - presumivelmente, por exemplo, você deseja obter estimativas eficientes de seus parâmetros - o que em grandes amostras tendem a levá-lo ao MLE (embora possivelmente em alguns casos esteja incorporado em uma estrutura robusta).

você precisará encontrar uma maneira de estimar consistentemente esses parâmetros. Se você minimizar o SSE ou LAD ou alguma outra função objetiva,

LAD é um estimador quantil. É um estimador consistente do parâmetro que deve estimar nas condições em que se espera que seja, da mesma forma que os mínimos quadrados. (Se você observar o que mostra consistência com menos quadrados, há resultados correspondentes para muitos outros estimadores comuns. As pessoas raramente usam estimadores inconsistentes; portanto, se você vê um estimador sendo amplamente discutido, a menos que esteja falando sobre sua inconsistência, é quase certamente consistente. *)

* Dito isto, consistência não é necessariamente uma propriedade essencial. Afinal, para minha amostra, eu tenho um tamanho de amostra específico, não uma sequência de tamanhos de amostra tendendo ao infinito. O que importa são as propriedades no eu tenho, não alguns n infinitamente maiores que eu não possuo e nunca verei . Mas muito mais cuidado é necessário quando temos inconsistência - podemos ter um bom estimador em n = 20, mas pode ser terrível em n = 2000; é necessário mais esforço, em certo sentido, se queremos usar estimadores consistentes.nnnn

Se você usar LAD para estimar a média de um exponencial, não será consistente para isso (embora uma escala trivial de sua estimativa seja) - mas da mesma forma, se você usar mínimos quadrados para estimar a mediana de um exponencial , não será consistente para isso (e novamente, um redimensionamento trivial corrige isso).


Acho que não expressei minha preocupação claramente. Eu estava pensando que quando você tem um conjunto de dados, você primeiro configura seu modelo, ou seja, faz um conjunto de suposições funcionais ou distributivas. No seu modelo, existem alguns parâmetros (suponha que seja um modelo paramétrico), então você precisa encontrar uma maneira de estimar consistentemente esses parâmetros. Se você minimizar o SSE ou LAD ou alguma outra função objetiva, acho que são apenas métodos diferentes para obter o estimador. Seguindo esta lógica, eu pensei que as pessoas usam menos quadrado deve ser 1) produz estimador consistente do modelo 2) outra coisa
KevinKim

Presumivelmente, os parâmetros das suposições funcionais são o que você está tentando estimar - nesse caso, as suposições funcionais são o que você faz menos quadrados (ou qualquer outra coisa); eles não determinam o critério. Por outro lado, se você tem uma premissa distributiva, possui muitas informações sobre uma função objetiva mais adequada - presumivelmente, por exemplo, você deseja obter estimativas eficientes de seus parâmetros - o que em grandes amostras tendem a levá-lo ao MLE (embora possivelmente em alguns casos esteja incorporado em uma estrutura robusta).
Glen_b -Replica Monica

Esta resposta se encaixa na minha mentalidade. Mas ainda tenho uma pergunta, o que você quer dizer com 'eles não determinam o critério'? Isso significa que, por exemplo, no econométrico 101 em regressão linear, sob a premissa funcional (sem distribuição), para obter um estimador consistente, você precisa usar ols, não pode usar alguma função objetiva arbitrária para minimizar, já que não garantia para derivar estimador consistente a partir daí?
KevinKim

Em "não determine" - deixe-me expandir em minha resposta. Em consistência: afirmei o contrário na minha resposta. Deixe-me dizer novamente: o mínimo de quadrados não é um requisito para consistência. Isso inclui a situação que você acabou de mencionar; há uma infinidade de estimadores alternativos que seriam consistentes. Quase todos os estimadores que as pessoas usam na prática são consistentes. Vou editar minha resposta para ser mais explícito.
Glen_b -Reinstala Monica

para a sua resposta atualizada, o último parágrafo, portanto, para alguns modelos, existem algumas maneiras de NÃO produzir parâmetros consistentes para os parâmetros do modelo, embora você possa aplicar esse método de qualquer maneira e o compter fornecer alguns números, certo? Então, posso dizer que, para um modelo que as pessoas constroem, para obter estimadores para os parâmetros no modelo, as pessoas NÃO PODEM escolher arbitrariamente uma função objetiva para otimizar APENAS com base nas boas propriedades técnicas dele?
precisa saber é o seguinte

5

Você fez uma pergunta estatística e espero que a resposta do meu engenheiro de sistemas de controle seja uma facada de uma direção diferente o suficiente para ser esclarecedora.

Aqui está um formulário de fluxo de informações "canônico" para engenharia de sistemas de controle: insira a descrição da imagem aqui

O "r" é para o valor de referência. É somado com uma transformação "F" da saída "y" para produzir um erro "e". Este erro é a entrada para um controlador, transformada pela função de transferência de controle "C" em uma entrada de controle para a instalação "P". É destinado a ser geral o suficiente para ser aplicado a plantas arbitrárias. A "planta" poderia ser um motor de carro para controle de cruzeiro ou o ângulo de entrada de um pêndulo inverso.

Digamos que você tenha uma planta com uma função de transferência conhecida com fenomenologia adequada para a discussão a seguir, um estado atual e um estado final desejado. ( tabela 2.1 pp68 ) Há um número infinito de caminhos únicos que o sistema, com entradas diferentes, poderia percorrer para passar do estado inicial ao final. O manual controla as "abordagens ideais" do engenheiro: tempo ideal ( menor tempo / bang-bang ), distância ideal (caminho mais curto), força ideal (menor magnitude máxima de entrada) e energia ideal (entrada total mínima de energia).

Assim como há um número infinito de caminhos, há um número infinito de "ideais" - cada um dos quais seleciona um desses caminhos. Se você escolher um caminho e disser que é melhor, estará implicitamente escolhendo uma "medida de bondade" ou "medida de otimização".

Na minha opinião pessoal, acho que pessoas como a norma L-2 (também conhecida como energia ótima, erro menos quadrado) porque é simples, fácil de explicar, fácil de executar, tem a propriedade de trabalhar mais contra erros maiores do que os menores, e sai com viés zero. Considere as normas h-infinito em que a variação é minimizada e o viés é restrito, mas não zero. Eles podem ser bastante úteis, mas são mais complexos para descrever e mais complexos para codificar.

Eu acho que a norma L2, também conhecida como o caminho ideal para minimizar a energia, também é fácil e, em um sentido preguiçoso, se encaixa na heurística de que "erros maiores são mais ruins e erros menores são menos ruins". Há literalmente um número infinito de maneiras algorítmicas para formular isso, mas o erro ao quadrado é um dos mais convenientes. Requer apenas álgebra, para que mais pessoas possam entender. Funciona no espaço polinomial (popular). A energia ótima é consistente com grande parte da física que compõe nosso mundo percebido, por isso "parece familiar". É decentemente rápido de calcular e não muito horrível na memória.

Se eu tiver mais tempo, gostaria de colocar figuras, códigos ou referências bibliográficas.


1

SSESSER2SST

R2=1SSESST

R2R2RMSE

R2R2SSESSEPRESS, que são relevantes para sua pergunta no final da postagem.

SSE


2
R2R2

R2R2

R2

R2

0

Você também pode minimizar o erro máximo em vez do ajuste de mínimos quadrados. Existe uma ampla literatura sobre o assunto. Para uma palavra de pesquisa, tente "Tchebechev", também escrito com polinômios "Chebyshev".


1
O máximo é uma norma L-infinito. Se você olhar para Nutonian / Formulize / Eureqa, eles têm um ótimo zoológico de funcionais de custo (formulários de erro), incluindo erro absoluto interquartil, erro de perda de dobradiça, ROC-AUC e diferença assinada. formulize.nutonian.com/documentation/eureqa/general-reference/...
EngrStudent - Reintegrar Monica

0

Parece que as pessoas usam quadrados porque permitem estar dentro do domínio da Álgebra Linear e não tocar em outras coisas mais complicadas, como a otimização convexa, que é mais poderosa, mas levam a usar solucionadores sem boas soluções de forma fechada.

Também a idéia desse domínio matemático, que tem otimização convexa de nomes, não se espalhou muito.

"... Por que nos preocupamos com o quadrado de itens. Para ser honesto, porque podemos analisá-lo ... Se você diz que corresponde à energia e eles a compram, prossiga rapidamente ..." - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.

Também aqui Stephen P. Boyd descreve em 2008 que as pessoas usam martelo e adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916


0

Em uma nota lateral:

p(t|x,w,β)=N(t|y(x,w),β1)
{x,t}W
p(t|x,W,β)=n=1NN(tn|y(xn,W),β-1).
-β2n=1N{y(xn,W)-tn}2+N2eunβ-N2eun(2π)
é o mesmo que minimizar a probabilidade de log negativo. Nós cancelamos o segundo e o terceiro termos, pois eles são constantes no que diz respeito aW. Também o fator de escalaβ no primeiro termo pode ser descartado, pois um fator constante não altera a localização do máximo / mínimo, deixando-nos com
-12n=1N{y(xn,W)-tn}2.
Assim, o SSE surgiu como conseqüência de maximizar a probabilidade sob a suposição de uma distribuição de ruído gaussiana.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.