Há alguns meses estagiei nesta organização; e, como presente de despedida, decidi passar minha última semana, com qualquer folga que tivesse, para investigar os fatores que afetam os salários dos professores. Um problema que tive com os salários dos professores foi que a distribuição para o estado em questão estava distorcida. Eu tive muitas observações que se agarravam à extremidade inferior do espectro salarial. Tentei resolver isso incorporando um Índice de salários comparáveis em minha variável dependente (salário dos professores), mas os resultados encontrados foram completamente desatualizados para o escopo do meu projeto. Em vez disso, decidi registrar minha variável dependente. Isso foi legal porque agora meus salários tinham uma distribuição normal e pareciam perfeitos no histograma. Quando comecei a testar, cheguei ao ponto em que fiquei com uma última variável independente, a declaração de imposto sobre a propriedade. O problema com meus salários normativos também foi aparente nas minhas observações de declaração de imposto sobre a propriedade. Eu tinha uma enorme variação nos números de declaração de imposto sobre a propriedade na extremidade inferior do espectro. Então, eu registrei essa variável também e ela ainda passou no teste de hipótese nula muito bem.
Não tenho certeza se isso está correto, mas comparando a alteração de uma variável registrada com outra variável registrada, dei-me a elasticidade. Supondo que isso esteja correto, minha equação de regressão (algo como LogWages = B0 + B1 (LogPropertyTaxReturns)) mostra a elasticidade entre as duas variáveis. Isso é significativo? Se meu objetivo era ver qual variável mais afetava os salários dos professores em qualquer município do meu estado, é útil mostrar a elasticidade entre as duas variáveis? Queremos elevar os municípios com os salários mais baixos dos professores para aumentar seus padrões de vida, mas temo extrapolar tão longe as observações reais que minha equação de regressão final não tem sentido.
Edit: Um dos meus maiores medos é que eu deveria ter usado um modelo não linear para mostrar o relacionamento. Eu sinto que forçar tanto a variável dependente quanto a independente a cooperar nessa regressão linear é enganoso de alguma forma.