Estou procurando uma distribuição melhor comportada para a variável independente em questão, ou para reduzir o efeito de outliers ou algo mais?
Estou procurando uma distribuição melhor comportada para a variável independente em questão, ou para reduzir o efeito de outliers ou algo mais?
Respostas:
Eu sempre hesito em entrar em um segmento com tantas respostas excelentes como essa, mas me parece que poucas respostas fornecem qualquer razão para preferir o logaritmo a alguma outra transformação que "esmaga" os dados, como uma raiz ou recíproca.
Antes de chegarmos a isso, vamos recapitular a sabedoria nas respostas existentes de uma maneira mais geral. Alguma reexpressão não linear da variável dependente é indicada quando qualquer um dos seguintes itens se aplica:
Os resíduos têm uma distribuição distorcida. O objetivo de uma transformação é obter resíduos que são distribuídos aproximadamente simetricamente (aproximadamente zero, é claro).
A dispersão dos resíduos muda sistematicamente com os valores da variável dependente ("heterocedasticidade"). O objetivo da transformação é remover essa mudança sistemática na disseminação, alcançando uma "homoscedasticidade" aproximada.
Linearizar um relacionamento.
Quando a teoria científica indica. Por exemplo, a química geralmente sugere expressar concentrações como logaritmos (fornecendo atividades ou mesmo o pH bem conhecido).
Quando uma teoria estatística mais nebulosa sugere que os resíduos refletem "erros aleatórios" que não se acumulam de maneira aditiva.
Para simplificar um modelo. Por exemplo, às vezes um logaritmo pode simplificar o número e a complexidade dos termos de "interação".
(Essas indicações podem entrar em conflito umas com as outras; nesses casos, é necessário julgamento.)
Então, quando um logaritmo é indicado especificamente em vez de alguma outra transformação?
Os resíduos têm uma distribuição "fortemente" inclinada positivamente. Em seu livro sobre a EDA, John Tukey fornece maneiras quantitativas para estimar a transformação (dentro da família das transformações Box-Cox, ou poder,) com base nas estatísticas de classificação dos resíduos. Na verdade, tudo se resume ao fato de que, se tomar o log simétrico dos resíduos, provavelmente era a forma correta de re-expressão; caso contrário, é necessária alguma outra expressão.
Quando o DP dos resíduos é diretamente proporcional aos valores ajustados (e não a alguma potência dos valores ajustados).
Quando o relacionamento está próximo do exponencial.
Quando se acredita que os resíduos refletem erros acumulativos multiplicativamente.
Você realmente deseja um modelo no qual as alterações marginais nas variáveis explicativas sejam interpretadas em termos de alterações multiplicativas (percentuais) na variável dependente.
Finalmente, algumas não razões para usar uma re-expressão :
Fazer discrepâncias não parecer discrepantes. Um outlier é um dado que não se encaixa em uma descrição parcimoniosa e relativamente simples dos dados. Alterar a descrição de alguém para melhorar a aparência dos discrepantes é geralmente uma inversão incorreta de prioridades: primeiro obtenha uma descrição estatisticamente válida dos dados e cientificamente válida e depois explore os discrepantes. Não deixe que os discrepantes ocasionais determinem como descrever o restante dos dados!
Porque o software fez isso automaticamente. (Já chega!)
Porque todos os dados são positivos. (A positividade geralmente implica distorção positiva, mas não precisa. Além disso, outras transformações podem funcionar melhor. Por exemplo, uma raiz geralmente funciona melhor com dados contados.)
Fazer com que dados "ruins" (talvez de baixa qualidade) pareçam bem comportados.
Ser capaz de plotar os dados. (Se uma transformação é necessária para poder plotar os dados, provavelmente é necessária por um ou mais bons motivos já mencionados. Se o único motivo da transformação realmente for para plotar, vá em frente e faça - mas apenas para plotar o Deixe os dados não transformados para análise.)
Eu sempre digo aos alunos que existem três razões para transformar uma variável usando o logaritmo natural. O motivo para registrar a variável determinará se você deseja registrar as variáveis independentes, dependentes ou ambas. Para ser claro, estou falando sobre o logaritmo natural.
Em primeiro lugar, para melhorar o ajuste do modelo, como outros pôsteres observaram. Por exemplo, se seus resíduos não são normalmente distribuídos, o uso do logaritmo de uma variável inclinada pode melhorar o ajuste, alterando a escala e tornando a variável mais "normalmente" distribuída. Por exemplo, os ganhos são truncados em zero e geralmente exibem inclinação positiva. Se a variável tiver inclinação negativa, você poderá inverter a variável antes de executar o logaritmo. Estou pensando aqui particularmente nas escalas Likert que são inseridas como variáveis contínuas. Embora isso geralmente se aplique à variável dependente, você ocasionalmente tem problemas com os resíduos (por exemplo, heterocedasticidade) causados por uma variável independente, que às vezes pode ser corrigida usando o logaritmo dessa variável. Por exemplo, ao executar um modelo que explicava as avaliações dos professores em um conjunto de professores e turmas, a variável "tamanho da turma" (ou seja, o número de alunos na aula) apresentava discrepâncias que induziam heterocedasticidade, porque a variação nas avaliações dos professores era menor em maior número. coortes do que coortes menores. Registrar a variável do aluno ajudaria, embora neste exemplo, calcular erros padrão robustos ou usar mínimos quadrados ponderados possa facilitar a interpretação.
O segundo motivo para registrar uma ou mais variáveis no modelo é a interpretação. Eu chamo esse motivo de conveniência. Se você registrar suas variáveis dependentes (Y) e independentes (X), seus coeficientes de regressão ( ) serão elasticidades e a interpretação seria a seguinte: um aumento de 1% em X levaria a um ceteris paribus % aumento em Y (em média). Registrar apenas um lado da "equação" da regressão levaria a interpretações alternativas, conforme descrito abaixo:β
Y e X - um aumento de uma unidade em X levaria a um aumento / diminuição de
Log Y e Log X - um aumento de 1% em X levaria a um aumento / diminuição de % em Y
Log Y e X - um aumento de uma unidade em X levaria a um aumento / diminuição de % em Y
Y e Log X - um aumento de 1% em X levaria a um aumento / diminuição de
E, finalmente, poderia haver uma razão teórica para fazê-lo. Por exemplo, alguns modelos que gostaríamos de estimar são multiplicativos e, portanto, não lineares. Tomar logaritmos permite que esses modelos sejam estimados por regressão linear. Bons exemplos disso incluem a função de produção de Cobb-Douglas em economia e a Equação de Mincer em educação. A função de produção Cobb-Douglas explica como as entradas são convertidas em saídas:
Onde
é a produção total ou saída de alguma entidade, por exemplo, empresa, fazenda, etc.
é a produtividade total do fator (a mudança na produção não causada pelos insumos, por exemplo, pelas mudanças tecnológicas ou pelo clima)
é a entrada de trabalho
é a entrada de capital
β e são elasticidades de saída.
Tomando logaritmos disso, é fácil estimar a função usando a regressão linear OLS como tal:
Para saber mais sobre o excelente ponto do whuber sobre razões para preferir o logaritmo a algumas outras transformações, como raiz ou recíproca, mas focando na interpretabilidade exclusiva dos coeficientes de regressão resultantes da transformação de log em comparação com outras transformações, consulte:
Oliver N. Keene. A transformação do log é especial. Estatística em Medicina 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF de legalidade dúbia disponível em http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).
Se você registrar a variável independente x na base b , poderá interpretar o coeficiente de regressão (e IC) como a mudança na variável dependente y por b - aumento de vezes em x . (Os logs da base 2 são, portanto, frequentemente úteis, pois correspondem à alteração em y por duplicação em x , ou os logs da base 10 se x variar em muitas ordens de magnitude, o que é mais raro). Outras transformações, como raiz quadrada, não têm uma interpretação tão simples.
Se você registrar a variável dependente y (não a pergunta original, mas uma que várias das respostas anteriores abordaram), acho a idéia de Tim Cole de 'simpercentes' atraente para apresentar os resultados (eu até as usei em um artigo uma vez), embora eles não pareçam ter percebido isso amplamente:
Tim J Cole. Sympercents: diferenças percentuais simétricas na escala de 100 log (e) simplificam a apresentação dos dados transformados em log. Estatística em Medicina 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Estou tão feliz que Stat Med parou de usar SICIs como DOIs ...]
Normalmente, o log de uma variável de entrada leva para escalá-la e alterar a distribuição (por exemplo, para torná-la normalmente distribuída). Não pode ser feito cegamente; você precisa ter cuidado ao fazer qualquer escala para garantir que os resultados ainda sejam interpretáveis.
Isso é discutido na maioria dos textos estatísticos introdutórios. Você também pode ler o artigo de Andrew Gelman sobre "Escalonamento de entradas de regressão dividindo por dois desvios padrão" para uma discussão sobre isso. Ele também tem uma discussão muito boa sobre isso no início de "Análise de dados usando regressão e modelos multiníveis / hierárquicos" .
Tomar o log não é um método apropriado para lidar com dados / outliers incorretos.
Você costuma registrar os dados quando há um problema com os resíduos. Por exemplo, se você plotar os resíduos em uma covariável específica e observar um padrão crescente / decrescente (uma forma de funil), uma transformação poderá ser apropriada. Os resíduos não aleatórios geralmente indicam que as suposições do seu modelo estão incorretas, ou seja, dados não normais.
Alguns tipos de dados se prestam automaticamente a transformações logarítmicas. Por exemplo, eu costumo fazer anotações ao lidar com concentrações ou idade.
Embora as transformações não sejam usadas principalmente para lidar com valores discrepantes, elas ajudam desde que os registros esmagam seus dados.
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Gostaria de responder à pergunta de user1690130 que foi deixada como comentário na primeira resposta em 26 de outubro de 12 e diz o seguinte: "E quanto a variáveis como densidade populacional em uma região ou a proporção de crianças e professores de cada distrito escolar ou da escola? número de homicídios por mil habitantes na população? Já vi professores tomarem o registro dessas variáveis. Não está claro para mim o porquê. Por exemplo, a taxa de homicídios já não é uma porcentagem? O registro alteraria a porcentagem de Por que a proporção de log de professor / criança seria preferida? "
Eu estava procurando responder a um problema semelhante e queria compartilhar o que meu antigo livro de estatísticas ( Jeffrey Wooldridge. 2006. Econometria Introdutória - Uma Abordagem Moderna, 4ª Edição. ). Wooldridge aconselha:
Variáveis que aparecem na forma de proporção ou porcentagem, como a taxa de desemprego, a taxa de participação em um plano de pensão, a porcentagem de estudantes que passam em um exame padronizado e a taxa de detenção por crimes denunciados - podem aparecer na forma original ou logarítmica , embora haja uma tendência a usá-los em formas de nível . Isso ocorre porque quaisquer coeficientes de regressão envolvendo a variável original - seja a variável dependente ou independente - terão uma interpretação da alteração do ponto percentual. Se usarmos, digamos, log ( desemprego ) em uma regressão, onde desemprego é a porcentagem de indivíduos desempregados, devemos ter muito cuidado em distinguir entre uma mudança de ponto percentual e uma mudança de porcentagem. Lembre-se, se estiver desempregadopassa de 8 para 9, é um aumento de um ponto percentual, mas um aumento de 12,5% em relação ao nível inicial de desemprego. Usar o log significa que estamos observando a variação percentual da taxa de desemprego: log (9) - log (8) = 0,118 ou 11,8%, que é a aproximação logarítmica do aumento real de 12,5%.
Com base nisso e no piggybanking no comentário anterior do whuber à pergunta de user1690130, eu evitaria usar o logaritmo de uma variável de densidade ou porcentagem para manter a interpretação simples, a menos que o uso do formulário de log produza uma grande desvantagem, como poder reduzir a assimetria da densidade ou variável de taxa.
O argumento de Shane de que pegar o log para lidar com dados incorretos é bem aceito. Assim como o de Colin, em relação à importância dos resíduos normais. Na prática, acho que geralmente você pode obter resíduos normais se as variáveis de entrada e saída também forem relativamente normais. Na prática, isso significa observar a distribuição dos conjuntos de dados transformados e não transformados e garantir a si mesmos que eles se tornaram mais normais e / ou realizar testes de normalidade (por exemplo, testes Shapiro-Wilk ou Kolmogorov-Smirnov) e determinar se o resultado é mais normal. Interpretabilidade e tradição também são importantes. Por exemplo, na psicologia cognitiva, as transformações logarítmicas do tempo de reação são frequentemente usadas, no entanto, pelo menos para mim, a interpretação de uma RT logarítmica não é clara. Além disso,