Linhas retas paralelas na plotagem residual vs ajustada

Eu tenho um problema de regressão múltipla, que tentei resolver usando a regressão múltipla simples:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Isso parece explicar os 85% de variação (de acordo com o quadrado do R) que parece muito bom.

No entanto, o que me preocupa é o enredo de aparência estranha vs Residuais, veja abaixo:

insira a descrição da imagem aqui

Suspeito que a razão pela qual temos essas linhas paralelas seja porque o valor Y tem apenas 10 valores únicos correspondentes a cerca de 160 valores X.

Talvez eu deva usar um tipo diferente de regressão neste caso?

Edit : Eu vi no artigo a seguir um comportamento semelhante. Observe que é um papel de apenas uma página; portanto, quando você o visualiza, pode ler tudo. Eu acho que explica muito bem por que eu observo esse comportamento, mas ainda não tenho certeza se alguma outra regressão funcionaria melhor aqui?

Edit2: O exemplo mais próximo do nosso caso em que posso pensar é a mudança nas taxas de juros. O FED anuncia novas taxas de juros a cada poucos meses (não sabemos quando e com que frequência). Enquanto isso, reunimos nossas variáveis independentes diariamente (como taxa de inflação diária, dados do mercado de ações, etc.). Como resultado, teremos uma situação em que podemos ter muitas medidas para uma taxa de juros.

r regression multiple-regression

— Datageek
fonte

Você quase certamente precisa de alguma outra forma de regressão. Se os dados Y são ordinais (que eu suspeito), então você provavelmente deseja uma regressão logística ordinal. Um Rpacote que faz isso é ordinal, mas também existem outros

— Peter Flom

Na verdade, o Y é o preço que tentamos prever, que muda a cada poucos meses. Temos variáveis de gravador semanal (X) para o preço correspondente (Y) que muda a cada poucos meses. A regressão logística funcionaria nesse caso quando não sabemos o preço futuro?

— Datageek

Você está certo sobre a explicação; sua referência acertou em cheio. Mas sua situação parece incomum: parece que você tem apenas dez respostas independentes (que se encontram em uma escala contínua, não discreta), mas você está usando várias variáveis explicativas que variam ao longo do tempo. Esta não é uma situação contemplada pela maioria das técnicas de regressão. Mais informações sobre o significado dessas variáveis e como são medidas podem nos ajudar a identificar uma boa abordagem analítica.

— whuber

Um modelo possível é uma variável "arredondada" ou "censurada": seja sendo seus 10 valores observados. Pode-se supor que exista uma variável latente representando o preço "real", que você não conhece completamente. No entanto, você pode escrever (com , se você perdoar esse abuso de notação). Se você estiver disposto a arriscar uma declaração sobre a distribuição de Z em cada um desses intervalos, uma regressão bayesiana se torna trivial; uma estimativa de probabilidade máxima requer um pouco mais de trabalho (mas não muito, até onde eu sei). Análogos deste problema são tratados por Gelman & Hill (2007). $y_1,\ldots y_{10}$ $Z$ $Y_i=y_j\Rightarrow{}y_{j-1}\leq{}Z_i\leq{}y_{j+1}$ $y_0=-\infty, y_{11}=+\infty$

— Emmanuel Charpentier
fonte

Essa é uma boa ideia. Ele cuida do fenômeno, mas me pergunto se ele pode perder um problema maior: mesmo que os preços possam ser considerados censurados, eles provavelmente são altamente correlacionados em série.

— whuber

Eu tentei o pacote censReg R, mas não consegui fazê-lo funcionar. É possível que eu não tenha entendido sua ideia. O fato é que conhecemos todas as variáveis dependentes, para que não tenhamos uma situação em que Y = 0 (censurado), é que o Y permanece estável por alguns meses. Acabei de fazer outra edição, espero que isso explique melhor o nosso caso de uso.

— Datageek

Radek, acho que a idéia é a seguinte: suponha que o preço dependa do tempo, mas apenas mude em momentos discretos . Concebemos isso como a manifestação de alguma variável subjacente não observada (o "preço real") e esperamos que entre os tempos e sempre entre e . Com efeito, vemos o preço observado a qualquer momento nesse intervalo como como censurado à esquerda e à direita por e

Y (t)

$Y(t)$

t_{1}, t_{2}, \dots

$t_1,t_2,\ldots$

Z (t)

$Z(t)$

t_{i}

$t_i$

t_{i + 1}

$t_{i+1}$

Z (t)

$Z(t)$

Y (t_{i})

$Y(t_i)$

Y (t_{i + 1})

$Y(t_{i+1})$

t

$t$

Z (t)

$Z(t)$

Y (t_{i})

$Y(t_i)$

Y (t_{i + 1})

$Y(t_{i+1})$ . (Devo enfatizar "esperança": esta é a "declaração arriscada" mencionada.)

— whuber

whuber: você está certo. O post original não aludiu a uma série temporal, então eu ignorei isso. Penso que, para responder à pergunta, precisamos arriscar duas afirmações: uma sobre a distribuição de nos intervalos e outra sobre a forma do modelo temporal , ou seja, a função f de ligação para . Num modelo de ERRO, ambos estes aspectos seria expressa em declarações sobre . não é tão simples anymore ...

Z

$Z$

(y_{j - 1}, y_{j + 1}

$(y_{j-1}, y_{j+1}$

Z (t)

$Z(t)$

f (Z (1), Z (2, \dots, Z (t - 1))

$f(Z(1), Z(2,\ldots,Z(t-1))$

Z

$Z$

— Emmanuel Charpentier