Linhas retas paralelas na plotagem residual vs ajustada


8

Eu tenho um problema de regressão múltipla, que tentei resolver usando a regressão múltipla simples:

model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data)

Isso parece explicar os 85% de variação (de acordo com o quadrado do R) que parece muito bom.

No entanto, o que me preocupa é o enredo de aparência estranha vs Residuais, veja abaixo:

insira a descrição da imagem aqui

Suspeito que a razão pela qual temos essas linhas paralelas seja porque o valor Y tem apenas 10 valores únicos correspondentes a cerca de 160 valores X.

Talvez eu deva usar um tipo diferente de regressão neste caso?

Edit : Eu vi no artigo a seguir um comportamento semelhante. Observe que é um papel de apenas uma página; portanto, quando você o visualiza, pode ler tudo. Eu acho que explica muito bem por que eu observo esse comportamento, mas ainda não tenho certeza se alguma outra regressão funcionaria melhor aqui?

Edit2: O exemplo mais próximo do nosso caso em que posso pensar é a mudança nas taxas de juros. O FED anuncia novas taxas de juros a cada poucos meses (não sabemos quando e com que frequência). Enquanto isso, reunimos nossas variáveis ​​independentes diariamente (como taxa de inflação diária, dados do mercado de ações, etc.). Como resultado, teremos uma situação em que podemos ter muitas medidas para uma taxa de juros.


1
Você quase certamente precisa de alguma outra forma de regressão. Se os dados Y são ordinais (que eu suspeito), então você provavelmente deseja uma regressão logística ordinal. Um Rpacote que faz isso é ordinal, mas também existem outros
Peter Flom

Na verdade, o Y é o preço que tentamos prever, que muda a cada poucos meses. Temos variáveis ​​de gravador semanal (X) para o preço correspondente (Y) que muda a cada poucos meses. A regressão logística funcionaria nesse caso quando não sabemos o preço futuro?
Datageek

2
Você está certo sobre a explicação; sua referência acertou em cheio. Mas sua situação parece incomum: parece que você tem apenas dez respostas independentes (que se encontram em uma escala contínua, não discreta), mas você está usando várias variáveis ​​explicativas que variam ao longo do tempo. Esta não é uma situação contemplada pela maioria das técnicas de regressão. Mais informações sobre o significado dessas variáveis ​​e como são medidas podem nos ajudar a identificar uma boa abordagem analítica.
whuber

Respostas:


4

Um modelo possível é uma variável "arredondada" ou "censurada": seja sendo seus 10 valores observados. Pode-se supor que exista uma variável latente representando o preço "real", que você não conhece completamente. No entanto, você pode escrever (com , se você perdoar esse abuso de notação). Se você estiver disposto a arriscar uma declaração sobre a distribuição de Z em cada um desses intervalos, uma regressão bayesiana se torna trivial; uma estimativa de probabilidade máxima requer um pouco mais de trabalho (mas não muito, até onde eu sei). Análogos deste problema são tratados por Gelman & Hill (2007).y1,y10ZYi=yjyj1Ziyj+1y0=,y11=+


1
Essa é uma boa ideia. Ele cuida do fenômeno, mas me pergunto se ele pode perder um problema maior: mesmo que os preços possam ser considerados censurados, eles provavelmente são altamente correlacionados em série.
whuber

Eu tentei o pacote censReg R, mas não consegui fazê-lo funcionar. É possível que eu não tenha entendido sua ideia. O fato é que conhecemos todas as variáveis ​​dependentes, para que não tenhamos uma situação em que Y = 0 (censurado), é que o Y permanece estável por alguns meses. Acabei de fazer outra edição, espero que isso explique melhor o nosso caso de uso.
Datageek

1
Radek, acho que a idéia é a seguinte: suponha que o preço dependa do tempo, mas apenas mude em momentos discretos . Concebemos isso como a manifestação de alguma variável subjacente não observada (o "preço real") e esperamos que entre os tempos e sempre entre e . Com efeito, vemos o preço observado a qualquer momento nesse intervalo como como censurado à esquerda e à direita por eY(t)t1,t2,Z(t)titi+1 Z(t)Y(ti)Y(ti+1)tZ(t)Y(ti)Y(ti+1). (Devo enfatizar "esperança": esta é a "declaração arriscada" mencionada.)
whuber

1
whuber: você está certo. O post original não aludiu a uma série temporal, então eu ignorei isso. Penso que, para responder à pergunta, precisamos arriscar duas afirmações: uma sobre a distribuição de nos intervalos e outra sobre a forma do modelo temporal , ou seja, a função f de ligação para . Num modelo de ERRO, ambos estes aspectos seria expressa em declarações sobre . não é tão simples anymore ...Z(yj1,yj+1Z(t)f(Z(1),Z(2,,Z(t1))Z
Emmanuel Charpentier
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.