Por que distâncias verticais?


11

Por que a estimativa do OLS envolve levar desvios verticais dos pontos para a linha, em vez de distâncias horizontais?


1
Questão de idade, mas acho que a visualização dos dados como uma amostra de uma distribuição de probabilidade que é parametrizado por x é útil
Bendy

Respostas:


12

O OLS ( mínimos quadrados ordinários ) pressupõe que os valores representados pelas distâncias horizontais sejam predeterminados pelo pesquisador ou medidos com alta precisão (em relação às distâncias verticais). Quando há uma questão de incerteza nas distâncias horizontais, você não deve usar o OLS, mas deve procurar modelos de erros em variáveis ou, possivelmente, análise de componentes principais .


"Regressão ortogonal" é outra coisa que se pode encontrar ao procurar métodos para lidar com abscissas e ordenadas contaminadas.
JM não é um estatístico

+1 Este ainda é um nicho apenas nas estatísticas; métodos mais complexos de mínimos quadrados (não apenas adicionando variabilidade X, mas também penalidades diferentes para pontos baseados em aproximações de erro) são comuns na física experimental; O framework ROOT possui dezenas de outros.

1

Pergunta interessante. Minha resposta seria que, quando estamos ajustando um modelo OLS, estamos implicitamente e principalmente tentando prever / explicar a variável dependente em questão - o "Y" no "Y vs X". Como tal, nossa principal preocupação seria minimizar a distância da linha ajustada às observações reais em relação ao resultado, o que significa minimizar a distância vertical. Isso, é claro, define os resíduos.

Além disso, as fórmulas de mínimos quadrados são mais fáceis de derivar do que a maioria dos outros métodos concorrentes, e talvez por isso tenha surgido primeiro. : P

Como 'whuber' alude acima, existem outras abordagens que tratam X e Y com igual ênfase ao ajustar uma linha de melhor ajuste. Uma dessas abordagens que eu conheço é a regressão de "linhas principais" ou "curvas principais", que minimiza as distâncias ortogonais entre os pontos e a linha (em vez de linhas de erro verticais, as que estão a 90 graus da linha ajustada) . Eu posto uma referência abaixo para sua leitura. É longo, mas muito acessível e esclarecedor.

Espero que isso ajude, Brenden

  1. Trevor Hastie. Principais Curvas e Superfícies , tese de doutorado, Universidade de Stanford; 1984

1

Possivelmente também se refere a experimentos projetados - se x é uma quantidade controlada que faz parte do projeto experimental, é tratado como determinístico; enquanto y é o resultado e é uma quantidade aleatória. x pode ser uma quantidade contínua (por exemplo, concentração de algum medicamento), mas pode ser uma divisão de 0/1 (levando a um teste t de 2 amostras, assumindo que y é gaussiano). Se x é uma quantidade contínua, pode haver algum erro de medição, mas geralmente se for muito menor que a variabilidade de y, isso será ignorado.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.