Provavelmente, essa é uma pergunta muito básica, mas parece que não consigo encontrar uma resposta sólida. Espero que aqui eu possa.
Atualmente, estou lendo artigos como preparação para minha tese de mestrado. Atualmente, estou lendo um artigo que pesquisa a relação entre tweets e recursos do mercado de ações.
Em uma de suas hipóteses, eles propõem que "o aumento do volume de tweets está associado a um aumento no volume de negociação".
Eu esperaria que eles, nas correlações aos pares, se correlacionassem tweetVolume
com tradingVolume
, mas eles relatam usando as versões registradas: LN(tweetVolume)
e LN(tradingVolume)
.
Para minha tese, repliquei esse pedaço de papel. Eu colecionei tweets de cerca de 100 empresas por mais de 6 meses ( tweetVolume
) e volume de negociação de ações pelo mesmo período. Se eu correlacionar as variáveis absolutas, achor=.282, p.000
mas quando uso as verões registradas, encontro r=.488, p=.000
.
Não entendo porque pesquisadores às vezes usam versões registradas de suas variáveis e por que a correlação parece muito maior se você o fizer. Qual é o raciocínio aqui e por que não há problema em usar variáveis registradas?
Sua ajuda é muito apreciada :-)