Regressão usual vs. regressão quando as variáveis ​​são diferenciadas


13

Estou apenas tentando entender qual é a relação entre uma regressão múltipla / simples normal vs. regressão múltipla / simples quando as variáveis ​​são diferenciadas.

Por exemplo, estou analisando a relação entre saldo de depósito ( taxas) do mercado vs. ( R T ) Se eu executar uma simples regressão linear, a correlação é negativa e bastante significativo (cerca de -.74) No entanto, se eu tomar o log e diferença da variável dependente e a diferença da variável independente, então minha equação é agora dYTRT sendo regredido com ddem(YT) , meus correlações e R ^ 2 de não são significativas em todos ( R 2 = 0,004 ).dR(T)R2=.004

Eu só estava me perguntando se esse baixo significa alguma coisa? Que significa o meu modelo não é um bom ajuste, ou posso ignorar a R 2 quando eu estou olhando para os dados diferenciados? Eu sei pelos dados que existe uma correlação significativa entre as duas variáveis ​​originais, mas para o meu modelo eu preciso examinar as variáveis ​​diferenciadas, apenas imaginando como fazer isso.R2R2

Respostas:


16

A versão simples é que quaisquer duas variáveis ​​que tendem a mudar em uma direção ao longo do tempo parecerão estar correlacionadas, havendo ou não alguma conexão entre elas. Considere as seguintes variáveis:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

é apenas uma função do tempo, como é y 1 . y 2 é uma função do tempo e x . O objetivo é reconhecer, a partir do código, que realmente existe uma relação entre x e y 2 e que não há relação entre x e y 1 . Agora observe a figura a seguir, todas as três linhas parecem muito semelhantes, não é?xy1y2xxy2xy1

insira a descrição da imagem aqui

R2xy1R2xy2xy1xy2, então como diferenciamos o real da mera aparência? É aí que entra a diferenciação. Para qualquer uma das duas variáveis, uma vez que ambas tendem a aumentar com o tempo, isso não é muito informativo, mas, como uma sobe em uma quantidade específica, isso nos diz quanto a outra sobe? A diferença nos permite responder a essa pergunta. Observe as duas figuras a seguir, gráficos de dispersão que fiz depois de diferenciar todas as três variáveis.

insira a descrição da imagem aqui

insira a descrição da imagem aqui

xy2R2=.43xy1R2=.07R2

Alguns outros pontos: Nas figuras, faço questão de observar que essas são mudanças simultâneas. Não há nada de errado com isso, e decorre da maneira como estabeleci o problema, mas geralmente as pessoas estão interessadas em efeitos com algum atraso. (Ou seja, a mudança de uma coisa em um ponto no tempo leva a outra em outra coisa mais tarde.) Segundo, você menciona o registro de uma de suas séries. Tomar o registro simplesmente muda seus dados de níveis para taxas. E assim, quando você diferencia, está observando mudanças nas taxas e não mudanças nos níveis. Isso é muito comum, mas não incluí esse elemento na minha demonstração; é ortogonal às questões que discuti. Por fim, quero reconhecer que os dados de séries temporais costumam ser mais complicados do que minha demonstração permite.


10

O @gung oferece uma boa resposta, mas quero oferecer algumas ressalvas ao que você está sugerindo.

A diferença é usada principalmente para combater o problema de raízes unitárias, por exemplo, quando o processo é AR (1) com um coeficiente de correlação de 1. A diferença pode ser usada efetivamente para remover uma tendência de tempo linear quando o termo de erro é ruído branco (em em particular, não exibe correlação serial), como @gung mostra acima. Porém, se o termo de erro tiver correlação serial com um coeficiente de correlação menor que 1 em valor absoluto, o uso da diferenciação para remover uma tendência de tempo linear produz erros com uma estrutura muito complicada. É difícil obter erros padrão precisos e fazer inferências válidas nesse caso.

Como resultado, é melhor testar primeiro uma raiz de unidade e, se uma for detectada, corrigi-la por meio de diferenciação. Em seguida, verifique se há uma tendência de tempo linear. Corrija esse problema prejudicando. Sem fazer o último, você está aberto ao problema do tipo de variáveis ​​omitidas que o @gung ilustra bem.


1
+1 Este é um bom complemento para a minha resposta. Tentei manter minha resposta simples e intuitiva. No entanto, é certamente verdade que existem mais complexidades do que eu discuti e que elas podem ser muito importantes. Eu deveria ter reconhecido isso no meu parágrafo final. Obrigado por me manter honesto.
gung - Restabelece Monica

1

Quando o objetivo é formar / identificar o relacionamento entre duas ou mais séries, pode ser necessário filtrar a variável X estacionária para transformá-la em ruído. Este é um processo de duas etapas, a diferenciação necessária e a estrutura ARMA. Para manter a objetividade e evitar o viés de especificação do modelo, não se deve assumir o filtro, mas construí-lo usando a natureza autocorrelativa da série X estacionária. Depois, pega-se a série Y e aplica-se o que for necessário para diferenciar os operadores para torná-la estacionária e depois aplicar o filtro desenvolvido anteriormente ao Y estacionário. Este procedimento tem um e apenas um objetivo e é identificar a relação entre Y e X. Nunca se deve tirar conclusões precipitadas sobre os operadores diferenciais necessários, o filtro ARMA e a relação entre as variáveis, a menos que um economista conheça o modelo antes de observar os dados ou se você falar diretamente com o todo-poderoso. Uma análise cuidadosa sobre a normalidade do requisito de erros é necessária para acreditar em qualquer teste estatístico que possa ser calculado. A computação dos testes F / testes T é necessária, mas não suficiente. Em resumo, sugiro que você prossiga com o assunto "Como identificar um modelo de função de transferência". Outros e eu já abordamos esse assunto várias vezes. Se desejar, você pode ler algumas das respostas às perguntas que possuem a tag "série temporal" anexada a elas. Como Yogi disse: "Você pode observar muito simplesmente lendo / assistindo". Às vezes, respostas legais e simples podem levar você a desviar-se e respostas potencialmente complicadas / conservadoras como a minha podem exigir que você desenvolva uma melhor compreensão da modelagem de dados de séries temporais. Como já foi dito "Toto, não estamos mais no Kansas (isto é, dados transversais)!"

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.