Primeiro, vamos ver o que normalmente acontece quando registramos algo que está inclinado corretamente.
A linha superior contém histogramas para amostras de três distribuições diferentes e cada vez mais distorcidas.
A linha inferior contém histogramas para seus logs.
yxz
Se quisermos que nossas distribuições pareçam mais normais, a transformação definitivamente melhorou o segundo e o terceiro casos. Podemos ver que isso pode ajudar.
Então, por que isso funciona?
Observe que, quando observamos uma imagem da forma distributiva, não estamos considerando a média ou o desvio padrão - isso apenas afeta os rótulos no eixo.
Então, podemos imaginar olhar para algum tipo de variável "padronizada" (embora permaneçam positivas, todas têm localização e propagação semelhantes, digamos)
Tomar registros "puxa" valores mais extremos à direita (valores altos) em relação à mediana, enquanto valores à extrema esquerda (valores baixos) tendem a se esticar para trás, mais longe da mediana.
xyz
y
Mas quando pegamos toras, elas são puxadas de volta para a mediana; depois de fazer registros, são apenas cerca de 2 intervalos interquartis acima da mediana.
y
Não é por acaso que as proporções 750/150 e 150/30 são 5 quando log (750) e log (30) terminaram na mesma distância da mediana do log (y). É assim que os logs funcionam - convertendo proporções constantes em diferenças constantes.
Nem sempre é o caso de que o log ajudará visivelmente. Por exemplo, se você pegar uma variável aleatória lognormal e alterá-la substancialmente para a direita (ou seja, adicionar uma constante grande a ela), de modo que a média se torne grande em relação ao desvio padrão, então tomar o log disso fará pouca diferença para a forma. Seria menos distorcido - mas mal.
Mas outras transformações - a raiz quadrada, por exemplo - também atrairão grandes valores assim. Por que os logs em particular são mais populares?
- 0,162
Muitos dados econômicos e financeiros se comportam assim, por exemplo (efeitos constantes ou quase constantes na escala percentual). A escala de log faz muito sentido nesse caso. Além disso, como resultado desse efeito de escala percentual. a propagação de valores tende a ser maior à medida que a média aumenta - e a obtenção de registros também tende a estabilizar a propagação. Isso geralmente é mais importante que a normalidade. De fato, todas as três distribuições no diagrama original vêm de famílias em que o desvio padrão aumentará com a média e, em cada caso, o registro de logs estabiliza a variação. [Porém, isso não acontece com todos os dados distorcidos corretos. É muito comum no tipo de dados que surge em áreas de aplicação específicas.]
Há também momentos em que a raiz quadrada tornará as coisas mais simétricas, mas tende a acontecer com distribuições menos distorcidas do que uso nos meus exemplos aqui.
Poderíamos (com bastante facilidade) construir outro conjunto de três exemplos de inclinação ligeiramente à direita, onde a raiz quadrada fazia uma inclinação à esquerda, uma simétrica e a terceira ainda estava à direita (mas um pouco menos inclinada do que antes).
E as distribuições inclinadas para a esquerda?
Se você aplicou a transformação de log a uma distribuição simétrica, ela tenderá a inclinar para a esquerda pelo mesmo motivo que muitas vezes torna a inclinação direita mais simétrica - consulte a discussão relacionada aqui .
Da mesma forma, se você aplicar a transformação de log a algo que já está inclinado, ele tenderá a torná-lo ainda mais inclinado, puxando as coisas acima da mediana de maneira ainda mais firme e esticando ainda mais as coisas abaixo da mediana.
Portanto, a transformação do log não seria útil.
Veja também transformações de potência / escada de Tukey. As distribuições que são deixadas inclinadas podem ser tornadas mais simétricas, tomando uma potência (maior que 1 - quadrado), ou exponenciando. Se houver um limite superior óbvio, pode-se subtrair as observações do limite superior (fornecendo um resultado inclinado à direita) e depois tentar transformá-lo.