Valores negativos nas previsões para uma variável de resposta sempre positiva na regressão linear

Estou tentando prever uma variável de resposta na regressão linear que deve ser sempre positiva (custo por clique). É uma quantia monetária. No adwords, você paga ao google pelos cliques nos seus anúncios, e um número negativo significa que o google paga quando as pessoas clicam: P

Os preditores são todos valores contínuos. O Rsquared e o RMSE são decentes quando comparados a outros modelos, mesmo fora da amostra:

  RMSE        Rsquared 
1.4141477     0.8207303

Não posso redimensionar as previsões, porque é dinheiro, portanto, mesmo um pequeno fator de redimensionamento pode alterar os custos significativamente.

Até onde eu entendo, para o modelo de regressão não há nada de especial em números zero e negativos; portanto, ele encontra o melhor hiperplano de regressão, independentemente de a saída ser parcialmente negativa.

Esta é uma primeira tentativa, usando todas as variáveis que tenho. Portanto, há espaço para aperfeiçoamento.

Existe alguma maneira de dizer ao modelo que a saída não pode ser negativa?

regression predictive-models

— usillos
fonte

Você pode garantir previsões positivas usando um modelo linear generalizado com a função de link logarítmico. A propósito, embora seu valor de seja bastante encorajador, uma melhor verificação para saber se o modelo segue a forma principal dos dados é um gráfico de residual versus previsto. Gráficos de observado vs previsto também podem ajudar a esclarecer seu problema.

R^{2}

$R^2$

— Nick Cox

@NickCox deu uma sugestão. Eu plotaria os dados de mais maneiras do que apenas residual versus previsto. No entanto, você certamente pode redimensionar variáveis de dinheiro. Um método comum é considerar o log (custo) como a variável dependente. (Acho que isso acaba equivalente à função de link de log, mas pode ser mais fácil de entender). Log (custo) pode, é claro, ser negativo. E os registros de variáveis monetárias geralmente são sensatos porque, por exemplo, uma diferença entre 0,01 e 0,02 por clique é importante, mas a diferença entre 1,01 e 10,2 por clique não é.

— Peter Flom

@ Peter Flom acho que significava 1.02 e não 10.2.

— Nick Cox

Uma pequena amostra de dados ajudaria as pessoas a ilustrar possíveis soluções.

— Glen_b -Reinstala Monica 13/10

Suponho que você esteja usando o estimador OLS nesse modelo de regressão linear. Você pode usar o estimador de mínimos quadrados com restrição de desigualdade , que será a solução para um problema de minimização sob restrições de desigualdade. Usando a notação matricial padrão (vetores são vetores de coluna), o problema de minimização é declarado como

min_{β} (y - X β)^{'} (y - X β) s . t . - Z β \leq 0

$\min_{\beta} (\mathbf y-\mathbf X\beta)'(\mathbf y-\mathbf X\beta) \\s.t.-\mathbf Z\beta \le \mathbf 0$

... onde é , é , é e é a matriz contém a série de regressores fora da amostra de comprimento que são usados para previsão. Temos restrições de desigualdade lineares (e a função objetivo é convexa, portanto as condições de primeira ordem são suficientes para um mínimo). $\mathbf y$ $n \times 1$ $\mathbf X$ $n\times k$ $\beta$ $k\times 1$ $\mathbf Z$ $m \times k$ $m$ $m$

O lagrangeano deste problema é

L = (y - X β)^{'} (y - X β) - λ^{'} Z β = y^{'} y - y^{'} X β - β^{'} X^{'} y + β^{'} X^{'} X β - λ^{'} Z β

$L = (\mathbf y-\mathbf X\beta)'(\mathbf y-\mathbf X\beta) -\lambda'\mathbf Z\beta = \mathbf y'\mathbf y-\mathbf y'\mathbf X\beta - \beta'\mathbf X'\mathbf y+ \beta'\mathbf X'\mathbf X\beta-\lambda'\mathbf Z\beta$

= y^{'} y - 2 β^{'} X^{'} y + β^{'} X^{'} X β - λ^{'} Z β

$= \mathbf y'\mathbf y - 2\beta'\mathbf X'\mathbf y+ \beta'\mathbf X'\mathbf X\beta-\lambda'\mathbf Z\beta$

onde é um vetor de coluna de multiplicadores não negativos de Karush-Kuhn-Tucker. As condições de primeira ordem são (convém revisar regras para diferenciação de matriz e vetor) $\lambda$ $m \times 1$

\frac{\partial L}{\partial β} = 0 \Rightarrow - 2 X^{'} y + 2 X^{'} X β - Z^{'} λ

$\frac {\partial L}{\partial \beta}= \mathbb 0\Rightarrow - 2\mathbf X'\mathbf y +2\mathbf X'\mathbf X\beta - \mathbf Z'\lambda$

\Rightarrow {\hat{β}}_{R} = {(X^{'} X)}^{- 1} X^{'} y + \frac{1}{2} {(X^{'} X)}^{- 1} Z^{'} λ = {\hat{β}}_{O L S} + {(X^{'} X)}^{- 1} Z^{'} ξ [1]

$\Rightarrow \hat \beta_R = \left(\mathbf X'\mathbf X\right)^{-1}\mathbf X'\mathbf y + \frac 12\left(\mathbf X'\mathbf X\right)^{-1}\mathbf Z'\lambda = \hat \beta_{OLS}+ \left(\mathbf X'\mathbf X\right)^{-1}\mathbf Z'\xi \qquad [1]$

... onde , por conveniência, e é o estimador que da estimativa de mínimos quadrados comuns. $\xi = \frac 12 \lambda$ $\hat \beta_{OLS}$

O método é totalmente elaborado em Liew (1976) .

— Alecos Papadopoulos
fonte

Eu votei positivo porque é uma solução legítima, mas é arriscada na prática. Afinal, a solução é arbitrariamente sensível aos valores de : um único valor de alta alavancagem afastará as estimativas de um ajuste decente apenas para impor a restrição. Assim, no mínimo, esse procedimento deve ser acompanhado de um cuidadoso teste de qualidade dos dados.

Z

$\mathbf Z$

— whuber

@whuber Você está certo. Então, OP, pise com cuidado aqui.

— Alecos Papadopoulos