Modelo linear Heterocedasticidade

Eu tenho o seguinte modelo linear:

Resíduos do modelo linear Distribuição das observações

Para abordar a heterocedasticidade dos resíduos, tentei aplicar uma transformação de log na variável dependente como mas ainda vejo o mesmo efeito de dispersão nos resíduos. Os valores de DV são relativamente pequenos, portanto a adição constante de +1 antes de fazer o log provavelmente não é apropriada nesse caso. $\log(Y + 1)$

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

Como posso transformar as variáveis para melhorar o erro e a variação de previsão, particularmente para os valores ajustados à extrema direita?

— Robert Kubrick
fonte

Respostas:

Qual é o teu objetivo? Sabemos que a heterocedasticidade não influencia nossas estimativas de coeficiente; isso apenas torna nossos erros padrão incorretos. Portanto, se você se importa apenas com o ajuste do modelo, a heterocedasticidade não importa.

Você pode obter um modelo mais eficiente ( ou seja , com erros padrão menores) se usar mínimos quadrados ponderados. Nesse caso, você precisa estimar a variação para cada observação e ponderar cada observação pelo inverso dessa variação específica da observação (no caso do weightsargumento para lm). Este procedimento de estimativa altera suas estimativas.

Como alternativa, para corrigir os erros padrão da heterocedasticidade sem alterar suas estimativas, você pode usar erros padrão robustos. Para um Raplicativo, consulte o pacote sandwich.

O uso da transformação de log pode ser uma boa abordagem para corrigir a heterocedasticidade, mas apenas se todos os seus valores forem positivos e o novo modelo fornecer uma interpretação razoável em relação à pergunta que você está fazendo.

— Charlie
fonte

Meu principal objetivo é reduzir os erros. Terei que analisar os mínimos quadrados ponderados, mas fiquei com a impressão de que uma transformação de DV era o passo certo, considerando a frequência com que a variação residual aumenta para valores ajustados mais altos.

— Robert Kubrick

O que você quer dizer com "reduzir os erros"? O erro médio é 0. Mesmo olhando na sua plotagem, em qualquer janela que você escolher, a média é 0. #

— Charlie Charlie

Quero dizer, melhorar a previsão do modelo, ou seja, reduzir o erro absoluto geral e a variação do erro, principalmente para os valores ajustados mais altos.

— Robert Kubrick

y

$y$

y

$y$

y

$y$

y

$y$

y

$y$

y

$y$

y

$y$

Você gostaria de tentar a transformação Box-Cox . É uma versão de uma transformação de poder:

y \mapsto {\begin{array}{rcl} \frac{y^{λ} - 1 1}{λ (\dot{y})^{λ - 1 1}}, & λ \neq 0 0 \\ \dot{y} em y, & λ = 0 0 \end{array}

$y \mapsto \left\{ \begin{eqnarray} \frac{y^\lambda-1}{\lambda (\dot y)^{\lambda-1}}, & \lambda \neq 0 \\ \dot y \ln y, & \lambda = 0 \end{eqnarray} \right.$

\dot{y}

$\dot y$

Algumas discussões anteriores incluem: Que outras transformações normalizadoras são comumente usadas além das comuns, como raiz quadrada, log, etc.? e Como devo transformar dados não negativos, incluindo zeros? . Você pode encontrar o código R seguindo Como procurar um procedimento estatístico no R?

Os econométricos deixaram de se preocupar com a heterocedasticidade após o trabalho seminal de Halbert White (1980) na criação de procedimentos inferenciais robustos à heteroscedasticidade (que de fato apenas recontaram a história anterior de um estatístico F. Eicker (1967)). Veja a página da Wikipedia que acabei de reescrever.

— StasK
fonte

Obrigado, neste momento estou discutindo se deve aplicar uma transformação de potência ou usar uma regressão robusta para reduzir os erros e melhorar os intervalos de previsão. Eu me pergunto como as duas técnicas se comparam. Além disso, se eu usar a transformação, precisaria transformar novamente os valores previstos. Não parece uma fórmula óbvia, não é?

— Robert Kubrick

y

$y$

@Charlie, quero dizer en.wikipedia.org/wiki/Robust_regression . Eu sou novo nisso, mas entendo que a regressão robusta altera a técnica de estimativa, portanto os resíduos devem ser diferentes.

— Robert Kubrick

Certo, esse é um método diferente e altera suas estimativas. Eu acho que a regressão robusta é mais adequada para casos com valores discrepantes. Dependendo da versão da regressão robusta que você decide usar e do seu conjunto de dados específico, é possível obter intervalos de confiança mais amplos em relação ao OLS.

— 3029 Charlie

Existe uma solução muito simples para a questão da heterocedasticidade associada a variáveis dependentes nos dados de séries temporais. Não sei se isso é aplicável à sua variável dependente. Supondo que sim, em vez de usar Y nominal, altere-o para% de variação em Y do período atual em relação ao período anterior. Por exemplo, digamos que seu Y nominal seja um PIB de US $ 14 trilhões no período mais atual. Em vez disso, calcule a variação do PIB no período mais recente (digamos 2,5%).

Uma série temporal nominal sempre cresce e é sempre heterocedástica (a variação do erro aumenta ao longo do tempo porque os valores crescem). Uma série de% de alterações é tipicamente homosquástica porque a variável dependente é praticamente estacionária.

— Sympa
fonte

Y

$Y$

Isso é surpreendente. Geralmente,% de variáveis de alteração não são heterocedásticas. Gostaria de saber se os resíduos são menos heterocedásticos do que pensamos. E que o problema subjacente é um dos discrepantes. Vejo 4 ou 5 observações na faixa de 0,15% que, se removidas, tornariam o gráfico inteiro menos heterocedástico. Além disso, como outros já mencionaram a heterocedasticidade, os seus coeficientes de regressão não serão corrompidos, mas apenas os intervalos de confiança e o erro padrão relacionado. No entanto, olhando para o gráfico, parece que os ICs podem não ser muito afetados. E ainda pode ser útil.

— Sympa