Comparando resíduos entre regressões OLS e não OLS

Suponha que você queira estimar um modelo linear: ( $n$ observações da resposta $p+1$ preditores)

E (y_{Eu}) = β_{0 0} + \sum_{j = 1}^{p} β_{j} x_{Eu j}

$\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij}$

Uma maneira de fazer isso é através da solução OLS, ou seja, escolha os coeficientes para que a soma dos erros quadrados seja mínima:

(β_{0 0}, β_{1}, \dots, β_{p})^{T} = \underset{β_{0 0}, β_{1}, \dots, β_{p}}{\arg min} \sum_{Eu = 1}^{n} {(y_{Eu} - β_{0 0} - \sum_{j = 1}^{p} β_{j} x_{Eu j})}^{2}

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2$

Como alternativa, você pode usar outra função de perda, como a soma dos desvios absolutos, para que:

(β_{0}, β_{1}, \dots, β_{p})^{T} = \underset{β_{0}, β_{1}, \dots, β_{p}}{\arg min} \sum_{i = 1}^{n} | y_{i} - β_{0} - \sum_{j = 1}^{p} β_{j} x_{i j} |

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right|$

Suponha que você tenha encontrado os parâmetros para os dois modelos e queira escolher o modelo com o menor valor da função de perda. Como você pode comparar os valores mínimos atingidos pelas funções de perda em geral? (ou seja, não apenas neste caso específico - também poderíamos tentar outras funções de perda baseadas em $L_p$ ) Parece haver uma diferença na escala das funções - uma lida com quadrados enquanto a outra não.

regression loss-functions

— Comp_Warrior
fonte

Bem, as premissas de Markov permitem mostrar que a primeira equação é AZUL, ou o melhor estimador linear e imparcial. Nesse caso, "Melhor" é determinado por ter os menores erros padrão de todos os estimadores possíveis. Essa não é uma estatística adequada?

— gregmacfarlane

observe que e, portanto,

‖ x ‖_{2} \leq ‖ x ‖_{1} \leq \sqrt{n} ‖ x ‖_{2}

$\|x\|_2 \leq \|x\|_1 \leq \sqrt{n}\|x\|_2$

\underset{β_{0 0}, β_{1}, \dots, β_{p}}{\arg min} \sqrt{\sum_{Eu = 1}^{n} {(y_{Eu} - β_{0 0} - \sum_{j = 1}^{p} β_{j} x_{Eu j})}^{2}} \leq \underset{β_{0 0}, β_{1}, \dots, β_{p}}{\arg min} \sum_{Eu = 1}^{n} | y_{Eu} - β_{0 0} - \sum_{j = 1}^{p} β_{j} x_{Eu j} | \leq \sqrt{(} n) \underset{β_{0 0}, β_{1}, \dots, β_{p}}{\arg min} \sqrt{\sum_{Eu = 1}^{n} {(y_{Eu} - β_{0 0} - \sum_{j = 1}^{p} β_{j} x_{Eu j})}^{2}}

$\underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2} \leq \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right| \leq \sqrt(n) \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2}$

— Manuel

@gmacfarlane Quero definir "melhor" aqui em termos do valor mínimo da função de perda, em vez do erro padrão nas estimativas de parâmetros. (só por curiosidade)

— Comp_Warrior

Eu acho que você não pode comparar os ajustes que vêm de duas funções de perda diferentes, porque são respostas para perguntas diferentes. Depois que você decide que uma determinada função de perda é a apropriada para sua situação, o ajuste segue dessa decisão. Você não pode dobrá-lo novamente para validar a escolha da função de perda sem que isso se torne circular. Se você tiver algum outro critério pelo qual ambas as funções de perda possam ser compreendidas, você poderá usá-lo, mas precisará defini-lo antecipadamente.

— gung - Restabelece Monica

Observe que, se o modelo para a expectativa estivesse correto e o tamanho da amostra fosse grande o suficiente para que ambas as estimativas estivessem efetivamente no valor da população, a pergunta seria efetivamente convertida em "Como faço para comparar um desvio médio com um desvio padrão"? Sob qualquer premissa distributiva, você poderia comparar o tamanho esperado, mas é claro que em pequenas amostras as estimativas diferem.

— Glen_b -Reinstala Monica

(Convertendo meu comentário em uma resposta.)

Eu acho que você não pode comparar os ajustes resultantes de diferentes funções de perda, porque são respostas para diferentes perguntas. Depois que você decide que uma determinada função de perda é a apropriada para sua situação, o ajuste segue dessa decisão. Você não pode dobrá-lo novamente para validar a escolha da função de perda sem que isso se torne circular. Se você tiver algum outro critério pelo qual ambas as funções de perda possam ser compreendidas, você poderá usá-lo, mas precisará defini-lo antecipadamente.

— - Reinstate Monica
fonte