A transformação de log sempre mitigará a heterocedasticidade? Porque o livro declara que a transformação de log geralmente reduz a heterocedasticidade. Então, eu quero saber em quais casos isso não diminuirá a heterocedasticidade.
A transformação de log sempre mitigará a heterocedasticidade? Porque o livro declara que a transformação de log geralmente reduz a heterocedasticidade. Então, eu quero saber em quais casos isso não diminuirá a heterocedasticidade.
Respostas:
Não; às vezes vai piorar.
A heterocedasticidade, onde a propagação é próxima à proporcional à média condicional, tenderá a ser melhorada com o log (y), mas se não estiver aumentando com a média próxima a essa taxa (ou mais), a heterocedasticidade geralmente será agravada por essa transformação.
Como os logs "puxam" valores mais extremos à direita (valores altos), enquanto os valores à extrema esquerda (valores baixos) tendem a se esticar para trás:
isso significa que os spreads serão menores se os valores forem grandes, mas poderão se esticar se os valores já forem pequenos.
Se você conhece a forma aproximada da heterocedasticidade, às vezes pode trabalhar uma transformação que aproximadamente tornará a variação constante. Isso é conhecido como transformação estabilizadora de variância ; é um tópico padrão em estatística matemática. Existem várias postagens em nosso site relacionadas a transformações estabilizadoras de variação.
Se a propagação for proporcional à raiz quadrada da média (variação proporcional à média), uma transformação de raiz quadrada - a transformação estabilizadora de variação para esse caso - tenderá a se sair muito melhor do que uma transformação logarítmica; a transformação de log faz "demais" nesse caso. No segundo gráfico, temos a redução do spread à medida que a média aumenta, e então pegar toras ou raízes quadradas pioraria. (Acontece que o poder 1.5 realmente se sai razoavelmente bem ao estabilizar a variação nesse caso.)
De acordo com minha experiência, quando os dados são "em forma de cone" e inclinados (log normal ou não), a transformação de log é mais útil (veja abaixo). Esse tipo de dado geralmente surge de populações de pessoas, por exemplo, usuários de um sistema, onde haverá uma grande população de usuários ocasionais e pouco frequentes e uma pequena porção de usuários frequentes.
Aqui está um exemplo de alguns dados em forma de cone:
x1 <- rlnorm(500,mean=2,sd=1.3)
x2 <- rlnorm(500,mean=2,sd=1.3)
y <- 2*x1+x2
z <- 2*x2+x1
#regression of unlogged values
fit <- lm(z ~ y)
plot(y,z,main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)
A obtenção dos logs de y e z fornece:
#regression of logged values
fit <- lm(log(z) ~ log(y))
plot(log(y),log(z),main=paste("R squared =",summary.lm(fit)[8]))
abline(coefficients(fit),col=2)
Lembre-se de que a regressão nos dados registrados alterará a forma da equação do ajuste de para (ou alternativamente )
Além desse cenário, eu diria que nunca é demais tentar representar graficamente os dados registrados, mesmo que isso não torne os resíduos mais homocedásticos. Muitas vezes, revela detalhes que você não veria ou espalharia / esmaga dados de uma maneira útil