Por que usar variáveis registradas?

Provavelmente, essa é uma pergunta muito básica, mas parece que não consigo encontrar uma resposta sólida. Espero que aqui eu possa.

Atualmente, estou lendo artigos como preparação para minha tese de mestrado. Atualmente, estou lendo um artigo que pesquisa a relação entre tweets e recursos do mercado de ações.

Em uma de suas hipóteses, eles propõem que "o aumento do volume de tweets está associado a um aumento no volume de negociação".

Eu esperaria que eles, nas correlações aos pares, se correlacionassem tweetVolumecom tradingVolume, mas eles relatam usando as versões registradas: LN(tweetVolume)e LN(tradingVolume).

Para minha tese, repliquei esse pedaço de papel. Eu colecionei tweets de cerca de 100 empresas por mais de 6 meses ( tweetVolume) e volume de negociação de ações pelo mesmo período. Se eu correlacionar as variáveis absolutas, achor=.282, p.000 mas quando uso as verões registradas, encontro r=.488, p=.000.

Não entendo porque pesquisadores às vezes usam versões registradas de suas variáveis e por que a correlação parece muito maior se você o fizer. Qual é o raciocínio aqui e por que não há problema em usar variáveis registradas?

Sua ajuda é muito apreciada :-)

correlation data-transformation logarithm

— Pr0no
fonte

Se você vir os Threads relacionados no canto inferior direito da página, o uso de logaritmos já foi abordado algumas vezes antes. Em particular, veja, Na regressão linear, quando é apropriado usar o log de uma variável independente em vez dos valores reais? .

— Andy W

Os motivos para usar variáveis registradas se enquadram em duas categorias: estatística e substantiva.

Estatisticamente, se suas variáveis estão inclinadas para a direita (ou seja, têm uma cauda longa na extremidade alta), uma medida como correlação ou regressão pode ser influenciada muito por um ou alguns casos na extremidade alta em uma ou ambas as variáveis (outliers, pontos de alavancagem, pontos influentes). Tomar o log pode ajudar a reduzir ou eliminar a inclinação.

Substancialmente, alguns conceitos são mais bem pensados em termos de proporções do que diferenças. Tome as duas medidas de volume que você discutir. Agora, compare duas empresas: uma pequena que negocia na NASDAQ que poucas pessoas ouviram falar e a outra uma mega corporação. O primeiro receberá muito poucos tweets por dia. Este último terá muitos; da mesma forma para o volume de negociação. Suponha (apenas para escolher números) que a empresa A normalmente recebe 100 tweets por dia e a última recebe 100.000.

Se os tweets da empresa A subirem de 100 para 500 (uma diferença de 400, uma proporção de 5), isso é uma grande notícia - algo deve estar acontecendo. Mas se a empresa B sobe de 100.000 para 100.400 (uma diferença de 400, uma proporção muito próxima de 1), ninguém se importa. O equivalente aproximado seria se passasse de 100.000 para 500.000.

— Peter Flom - Restabelece Monica
fonte

obrigado pela sua resposta rápida. Mais duas perguntas vêm da sua resposta. Primeiro, se eu tiver três propriedades para um objeto (volume de negociação, retornos e volatilidade) e levar a versão registrada para uma delas? O que você diz para os tweets das empresas A e B também pode contar para os retornos: se o estoque da empresa A subir de 1 a 1,50, então os retornos serão (50%) 0,50. A empresa B precisa aumentar de 400 para 600 (200) para uma% de retorno semelhante. E daí: se os retornos são negativos, o LN (-0,50) obviamente não funciona. É permitido então tomar -LN (0,50)?

— Pr0no

Além disso, se eu entendi direito, pegar a variável registrada não é uma escolha livre - ela deve ser argumentada por skweness-charts (estatisticamente)? E, substancialmente, é apenas mais um raciocínio lógico para tomar logado que realmente fornece proff para fazer isso? Em outras palavras, existem regras práticas aqui, definindo limites acima dos quais você deve usar a versão registrada ou é uma questão de interpretação?

— Pr0no

Você não deseja obter logs de porcentagens neste caso: A porcentagem faz o que o log faria. Ou seja, faz com que as coisas tenham proporções. Certamente você pode pegar o log de algumas variáveis e outras não. Tomar o log não requer gráficos de assimetria, mas geralmente as variáveis que devem ser registradas são assimétricas. Mas o principal é substância . Se não fizer sentido substancial tomar o registro, não faça isso. Em vez disso, use métodos estatísticos que funcionam com variáveis assimétricas. SUBSTÂNCIA vem em primeiro lugar.

— Peter Flom - Restabelece Monica

Por que usar variáveis ​​registradas?

Por que usar variáveis registradas?