Correlação entre duas variáveis de tamanho desigual

9

Em um problema em que estou trabalhando, tenho duas variáveis aleatórias, X e Y. Preciso descobrir o quão intimamente correlacionadas elas são, mas são de dimensões diferentes. A classificação do espaço da linha de X é 4350, e a classificação do espaço da linha de Y é substancialmente maior, nas dezenas de milhares. X e Y têm o mesmo número de colunas.

Preciso de uma medida de correlação entre as duas variáveis, e o r de Pearson exige que X e Y tenham dimensão igual (pelo menos R exige que os dois rv sejam).

Tenho alguma esperança de fazer uma correlação entre esses dois, ou devo encontrar alguma maneira de remover as observações de Y?

 EDIT

Adicionando informações dos comentários, que devem estar na pergunta.

Suponho que esqueci de mencionar isso. X e Y são os preços das ações. A empresa X é pública há um período de tempo muito menor do que Y. Eu queria dizer como os preços de X e Y estão correlacionados. Eu definitivamente poderia obter uma correlação pelo período de tempo em que X e Y existem. Eu queria saber se, ao saber dos preços das ações por vários anos extras de Y, que X não existia, rendi-me qualquer informação adicional.

— Christopher Aden
fonte

2

Isso não soa como se você tivesse observações (ou "casos") nos quais você observa uma realização X e Y. Como você descobre qual X está associado a qual Y?

— 23910 Stephan Stassassass

11

Suponho que esqueci de mencionar isso. X e Y são os preços das ações. A empresa X é pública há um período de tempo muito menor do que Y. Eu queria dizer como os preços de X e Y estão correlacionados. Eu definitivamente poderia obter uma correlação pelo período de tempo em que X e Y existem. Eu queria saber se, ao saber dos preços das ações por vários anos extras de Y, que X não existia, rendi-me qualquer informação adicional.

— Christopher Aden

2

@Christopher Eu recomendo que você atualize sua pergunta para refletir seu comentário acima. Além disso, para que a correlação seja significativa, são necessárias mais do que apenas dimensões iguais; as medições reais devem vir dos mesmos casos, que no seu caso são presumivelmente os mesmos pontos no tempo.

— Jeromy Anglim

2

Comentário que segundo Jeromy da actualizar a questão ...

— Stephan Kolassa

Outra pergunta: você menciona que X e Y têm o mesmo número de colunas. Isso seria um cada? Ou você tem várias séries para X e Y (preços em diferentes bolsas de valores ou algo assim)?

— Stephan Kolassa 14/10/10

10

Nenhuma quantidade de imputação, análise de séries temporais, modelos GARCH, interpolação, extrapolação ou outros algoritmos sofisticados fará qualquer coisa para criar informações onde elas não existem (embora elas possam criar essa ilusão ;-). A história do preço de Y antes de X tornar-se público é inútil para avaliar sua correlação subsequente.

Às vezes, os analistas (geralmente preparatórios para uma abertura de capital) usam informações contábeis internas (ou registros de transações com ações privadas) para reconstruir retrospectivamente preços hipotéticos para as ações de X antes de serem abertas. É concebível que essas informações possam ser usadas para aprimorar as estimativas de correlação, mas, dada a natureza extremamente tentativa de tais backcasts, duvido que o esforço seja de alguma ajuda, exceto inicialmente quando houver apenas alguns dias ou semanas de preços para X disponíveis.

— whuber
fonte

Esclarecimento: não mencionei o GARCH para lidar com o problema de dados ausentes (o que obviamente não faria sentido) - mas para melhorar um simples cálculo de correlação entre as séries temporais nos momentos em que ambos existem.

— Stephan Kolassa

@ Stephan: OK. Eu mencionei isso principalmente para mostrar que não estava te ignorando!

— whuber

11

Obrigado, whuber. Isso está de acordo com o que eu estava procurando. Eu não acho que o backcasting será de muita utilidade (ou viabilidade) para adicionar algumas semanas extras de X quando o período de tempo mútuo entre X e Y já tiver cerca de 16 anos.

— Christopher Aden

2

@Christopher: !! Com 16 anos (de fechamentos diários?), Você tem dados suficientes não apenas para encontrar uma correlação, mas também para explorar como elas vêm mudando ao longo do tempo. (Isso, acredito, é o espírito da resposta de @Stephan Kolassa.) #

— Whuber

Concordo. Usar técnicas para descobrir quais valores X teria assumido antes de seu IPO parece propenso a erros. Também posso questionar a relevância dos dados com 16 anos para prever tendências modernas.

— Christopher Aden

10

Portanto, o problema é um dos dados ausentes (nem todos os Y têm um X correspondente, onde a correspondência é operacionalizada por meio de pontos no tempo). Acho que não há muito o que fazer aqui, apenas jogar fora o Y para o qual você não tem um X e calcular a correlação nos pares completos.

Você pode ler sobre séries temporais financeiras, embora eu não tenha uma boa referência à mão neste momento (ideias, alguém?). Os preços das ações geralmente apresentam volatilidades variáveis no tempo, que podem ser modeladas, por exemplo, pela GARCH . É possível que suas duas séries temporais X e Y exibam correlações positivas durante períodos de baixa volatilidade (quando a economia cresce, todos os preços das ações tendem a aumentar), mas correlações negativas quando a volatilidade geral é alta (em 11 de setembro, as companhias aéreas afundaram enquanto dinheiro fugiu para investimentos mais seguros). Portanto, apenas o cálculo de uma correlação geral pode depender muito do seu período de observação.

ATUALIZAÇÃO: Eu acho que você pode querer olhar para os modelos VAR (vetor autoregressivo) .

— Stephan Kolassa
fonte

Para referências básicas de séries temporais financeiras, você pode ver minha resposta aqui: stats.stackexchange.com/questions/328/… . O texto de Tsay é um dos mais populares.

— Shane

2

A Jeremy Anglim especificou isso corretamente. Ter informações extras quando apenas uma das séries temporais não forneceria valor aqui. E, em princípio, os dados devem ser amostrados ao mesmo tempo para que sejam significativos usando medidas de correlação convencionais.

Como um problema mais geral, eu acrescentaria que existem técnicas para lidar com dados de séries temporais com espaçamento irregular. Você pode procurar por "correlação de séries temporais com espaçamento irregular". Parte do trabalho recente foi realizado sobre "Volatilidade e correlação realizadas" (Andersen, Bollerslev, Diebold e Labys 1999) usando dados de alta frequência.

— Shane
fonte

1

Dadas as informações extras em seus comentários, recomendo analisar duas correlações. O primeiro seria o período de tempo comum em que as duas empresas estavam por perto. Portanto, se um acontecesse cerca de 2 anos antes, você simplesmente soltaria esses dados e examinaria o resto. O segundo seria o período de tempo relativo. No segundo, você não está correlacionando o tempo real, mas o tempo medido desde que a empresa foi aberta.

O primeiro seria fortemente influenciado por forças econômicas gerais compartilhadas no mesmo período. Este último seria influenciado por propriedades compartilhadas pelas empresas à medida que elas mudam após o IPO.

— John
fonte

0

Outra maneira de resolver esse problema é imputar os dados ausentes para as séries mais curtas usando um modelo de série temporal que pode ou não fazer sentido em um contexto específico.

No seu contexto, imputar os preços das ações no passado significaria que você está fazendo a seguinte pergunta contra-factual: Qual seria o preço das ações da empresa X se ela fosse pública há n anos no passado, e não quando realmente fosse pública? Essa imputação de dados pode ser feita levando em consideração os preços das ações de empresas relacionadas, tendências gerais do mercado etc. Mas, essa análise pode não fazer sentido ou pode não ser necessária, considerando os objetivos do seu projeto.

0

Bem, depende muito das suposições que você faz. Se você presumir que os dados são estacionários, mais dados da série um fornecerão uma estimativa melhor de sua volatilidade. Essa estimativa pode ser usada para melhorar a estimativa de correlação. Portanto, a seguinte declaração está incorreta:

"A história do preço de Y antes que X se tornasse público é inútil para avaliar sua correlação subsequente"

Eu pensei sobre isso. Em teoria, pode funcionar, mas será muito pouco robusto, melhor evitar.

— precisa saber é o seguinte

-1

Isso soa como um problema para um algoritmo de aprendizado de máquina. Portanto, eu tentaria descobrir um conjunto de características que descrevem um certo aspecto da tendência e treinar isso. Toda a teoria do aprendizado de máquina é um pouco complexa para essa caixa de respostas, mas seria útil que você a lesse.

Mas honestamente, acho que já existe por aí. Onde é possível ganhar dinheiro, as pessoas colocam sua mente nele.

— Hans v. Arsch
fonte

Correlação entre duas variáveis ​​de tamanho desigual

Correlação entre duas variáveis de tamanho desigual