Como modelar variável de destino limitada?

Eu tenho 5 variáveis e estou tentando prever minha variável de destino, que deve estar dentro do intervalo de 0 a 70.

Como uso essas informações para modelar melhor meu destino?

regression bounds

— user333
fonte

Respostas:

$\max(0, \min(70, \hat{y}))$ $\hat{y}$

No entanto, o intervalo restrito aumenta a possibilidade de um relacionamento não linear entre a variável dependente ( $y$ ) e as variáveis independentes ( $x_i$ ). Alguns indicadores adicionais incluem:

Maior variação nos valores residuais quando $\hat{y}$ está no meio do intervalo, em comparação com a variação nos resíduos nos dois extremos do intervalo.
Razões teóricas para relações não lineares específicas.
Evidência de especificação incorreta do modelo (obtida da maneira usual).
Significado de termos quadráticos ou de ordem superior no $x_i$ .

Considere uma re-expressão não linear de $y$ , caso alguma dessas condições se mantenha.

Existem muitas maneiras de re-expressar $y$ para criar relacionamentos mais lineares com o $x_i$ . Por exemplo, qualquer função crescente $f$ definida no intervalo $[0,70]$ pode ser "dobrada" para criar uma função crescente simétrica via $y \to f(y) - f(70-y)$ . Se $f$ torna-se arbitrariamente grande e negativa como seu argumento se aproxima de $0$ , a versão dobrada de $f$ irá mapear $[0,70]$ em todos os números reais. Exemplos de tais funções incluem o logaritmo e qualquer poder negativo. O uso do logaritmo é equivalente ao "link de logit" recomendado por @ user603. Outra maneira é deixar $G$ seja o CDF inverso de qualquer distribuição de probabilidade e defina $f(y) = G(y/70)$ . O uso de uma distribuição Normal fornece a transformação "probit".

Uma maneira de explorar famílias de transformações é experimentar: tente uma provável transformação, faça uma regressão rápida do transformado em relação ao e teste os resíduos: eles devem parecer independentes dos valores previstos de (homoscedástico e não correlacionado) . Estes são sinais de uma relação linear com as variáveis independentes. Também ajuda se os resíduos dos valores previstos transformados de volta tendem a ser pequenos. Isso indica que a transformação melhorou o ajuste. Para resistir aos efeitos de valores discrepantes, use métodos de regressão robustos, como mínimos quadrados com ponderação iterativa . $y$ $x_i$ $y$

— whuber
fonte

+1 Ótima resposta! Você pode extrapolar ou citar por que "uma maior variação nos valores residuais quando y_ que está no meio de seu intervalo, em comparação com a variação nos resíduos nos dois extremos do intervalo" é uma indicação de não linearidade?

— Andy McKenzie

@ Andy Em teoria, essa heterocedasticidade não tem conexão direta com a não linearidade, mas, na prática, é frequentemente observado que uma transformação estabilizadora de variância tende a linearizar os relacionamentos. Qualquer curva subindo continuamente de um mínimo (como 0) para um máximo (como 70) terá uma inclinação máxima em algum lugar no meio desse intervalo, geralmente resultando em uma variação residual maior também. É por isso que esperamos que os resíduos exibam mais variação no meio e menos nas extremidades. Se não for esse o caso, podemos esperar relacionamentos lineares com a variável não transformada .

— whuber

É importante considerar por que seus valores são limitados no intervalo de 0 a 70. Por exemplo, se eles são o número de respostas corretas em um teste de 70 perguntas, considere modelos para variáveis "número de sucessos", como regressão binomial superdispersa. Outros motivos podem levar você a outras soluções.

— Aniko
fonte

Transformação de dados: redimensione seus dados para e modele-os usando um modelo glm com um link de logit. $[0,1]$

Editar: quando você redimensiona um vetor (ou seja, divide todos os elementos pela maior entrada), como regra geral, antes de fazer isso, faça uma triagem (globos oculares) para discrepâncias.

ATUALIZAR

Supondo que você tenha acesso ao R, eu levaria a parte de modelagem com uma rotina glm robusta , consulte no pacote . $\verb+glmrob()+$ $\verb+robustbase+$

— user603
fonte

Fixar os dados conforme recomendado aqui irá influenciar as inclinações em uma regressão.

— whuber

Além disso, não vejo o valor imediato na fixação com base em quantis de amostra, quando o verdadeiro intervalo de dados é conhecido a priori.

— cardeal

@ Cardinal O ponto é que (por exemplo) possivelmente 99% dos dados estão em [0,1] e os valores restantes são 70: uma restrição compacta no intervalo não garante a ausência de discrepâncias! Portanto, concordo com o espírito dos conselhos oferecidos pelo @ user603, apesar da minha preocupação com o possível viés na abordagem proposta.

— whuber

@ whuber: Minha inclinação nesse cenário seria usar um GLM que fosse resistente a valores discrepantes, e não a essa forma de fixação. Depois, ajuste o modelo através do coeficiente "interceptação" e "inclinação".

— cardeal

@ Cardinal Sim, essa é uma solução válida. Espero que o uso desse GLM ainda seja acompanhado por procedimentos de diagnóstico para verificar a linearidade (aproximada) e a independência dos resíduos.

— whuber