Minha situação é:
Eu tenho 1 variável dependente contínua e 1 variável preditora contínua que eu logaritmicamente transformou para normalizar seus resíduos para uma regressão linear simples.
Gostaria de receber qualquer ajuda sobre como relacionar essas variáveis transformadas ao seu contexto original.
Eu quero usar uma regressão linear para prever o número de dias que os alunos faltaram às aulas em 2011 com base no número de dias que faltaram em 2010. A maioria dos alunos faltam 0 dias ou apenas alguns dias em que os dados estão positivamente inclinados para a esquerda. Portanto, há uma necessidade de transformação para usar a regressão linear.
Eu usei log10 (var + 1) para ambas as variáveis (usei +1 para alunos que faltaram 0 dias na escola). Estou usando a regressão porque quero adicionar fatores categóricos - gênero / etnia etc. também.
Meu problema é:
O público que eu gostaria de comentar não entenderia log10 (y) = log (constante) + log (var2) x (e, francamente, nem eu).
Minhas perguntas são:
a) Existem maneiras melhores de interpretar variáveis transformadas em regressão? Ou seja, para sempre 1 dia faltando em 2010, eles perderão 2 dias em 2011, em vez de para sempre 1 mudança de unidade de log em 2010, haverá x unidades de log em 2011?
b) Especificamente, dada a passagem citada dessa fonte da seguinte forma:
"Esta é a estimativa de regressão binomial negativa para um aumento de uma unidade na pontuação do teste padronizado de matemática, considerando que as outras variáveis são mantidas constantes no modelo. Se um aluno aumentasse sua pontuação no teste de matemática em um ponto, a diferença nos registros de as contagens esperadas deverão diminuir em 0,0016 unidade, mantendo as outras variáveis no modelo constantes ".
Eu gostaria de saber:
- Esta passagem está dizendo que, para cada unidade de aumento na pontuação da
UNTRANSFORMED
variável matemática, ocorre uma diminuição de 0,0016 da constante (a); portanto, se aUNTRANSFORMED
pontuação da matemática aumenta dois pontos, subtraio 0,0016 * 2 da constante a? - Isso significa que obtenho a média geométrica usando exponencial (a)) e exponencial (a + beta * 2) e que preciso calcular a diferença percentual entre esses dois para dizer qual o efeito da (s) variável (s) preditora (s) / tem sobre a variável dependente?
- Ou eu entendi isso totalmente errado?
Estou usando o SPSS v20. Desculpe por enquadrar isso em uma longa pergunta.
R
possui pacotes para modelos inflados a zero; pesquise neste site .)