Regressão linear minimizando MAD no sklearn

A classe de regressão linear sklearn padrão encontra uma relação linear aproximada entre variável e covariável que minimiza o erro quadrado médio (MSE). Especificamente, seja o número de observações e vamos ignorar a interceptação por simplicidade. Seja o valor variável da ésima observação e sejam os valores das covariáveis da ésima observação. O relacionamento linear tem a forma onde os coeficientes são dados por $N$ $y_j$ $j$ $x_{1,j}, \dots, x_{n,j}$ $n$ $j$

y = β_{1 1} x_{1 1} + \dots β_{n} x_{n};

$y = \beta_1 x_1 + \dots \beta_n x_n;$

β_{1}, \dots, β_{n}

$\beta_1, \dots, \beta_n$

β_{1 1}, \dots, β_{n} = \underset{{\tilde{β}}_{1 1}, \dots, {\tilde{β}}_{n}}{uma r g m Eu n} (\sum_{j = 1 1}^{N} {(y_{j} - {\tilde{β}}_{1 1} x_{1 1, j} - \dots - {\tilde{β}}_{n} x_{n, j})}^{2}) .

$\beta_1, \dots, \beta_n = \underset{\tilde\beta_1, \dots, \tilde\beta_n}{\mathrm{argmin}} \left( \sum_{j = 1}^N \left( y_j - \tilde\beta_1x_{1, j} - \dots -\tilde\beta_nx_{n, j}\right)^2 \right).$

Desejo agora encontrar os coeficientes que minimizam o desvio médio absoluto (MAD) em vez do erro médio quadrático. Ou seja, quero os coeficientes dados por

β_{1 1}, \dots, β_{n} = \underset{{\tilde{β}}_{1 1}, \dots, {\tilde{β}}_{n}}{uma r g m Eu n} (\sum_{j = 1 1}^{N} | y_{j} - {\tilde{β}}_{1 1} x_{1 1, j} - \dots - {\tilde{β}}_{n} x_{n, j} |) .

$\beta_1, \dots, \beta_n = \underset{\tilde\beta_1, \dots, \tilde\beta_n}{\mathrm{argmin}} \left( \sum_{j = 1}^N \left| y_j - \tilde\beta_1x_{1, j} - \dots -\tilde\beta_nx_{n, j}\right| \right).$

Entendo que, em nítido contraste com o caso MSE, a falta de diferenciabilidade da função de valor absoluto em implica que não há solução analítica para o caso MAD. Mas o último ainda é um problema de otimização convexa e, de acordo com esta resposta, pode ser facilmente resolvido por meio de programação linear. $0$

É possível implementar essa regressão linear no sklearn? Que tal usar outros kits de ferramentas estatísticas?

regression multiple-regression scikit-learn

— Giovanni De Gaetano
fonte

Eu apenas nomeei isso para reabrir. Sim, a pergunta é sobre como executar uma tarefa no sklearn ou no Python em geral. Mas ele precisa de conhecimento estatístico para entender ou responder , que é explicitamente no tópico .

— precisa saber é o seguinte

@StephanKolassa Concordo com você - a questão deve ser reaberto ..

— James Phillips

O MAD esperado é minimizado pela mediana da distribuição ( Hanley, 2001, The American Statistician ). Portanto, você está procurando um modelo que produza a mediana condicional , em vez da média condicional .

Este é um caso especial de regressão quantílica, especificamente para o quantil de 50%. Roger Koenker é o principal guru da regressão quantílica ; veja em particular seu livro homônimo .

Existem maneiras de fazer regressão quantílica no Python. Este tutorial pode ser útil. Se você estiver aberto para usar o R, poderá usar o quantregpacote.

— Stephan Kolassa
fonte

Em python, está disponível em statsmodels statsmodels.org/dev/generated/…

— Tim

Obrigado! É uma maneira fácil de encarar o problema ...

— Giovanni De Gaetano