Quero incluir o termo e seu quadrado (variáveis preditoras) em uma regressão, porque presumo que valores baixos de tenham um efeito positivo na variável dependente e valores altos tenham um efeito negativo. O deve capturar o efeito dos valores mais altos. Portanto, espero que o coeficiente de seja positivo e o coeficiente de seja negativo. Além de , eu também incluo outras variáveis preditoras.
Li em alguns posts aqui que é uma boa idéia centralizar as variáveis nesse caso para evitar a multicolinearidade. Ao realizar uma regressão múltipla, quando você deve centralizar suas variáveis preditoras e quando deve padronizá-las?
Devo centralizar as duas variáveis separadamente (na média) ou devo centralizar e, em seguida, pegar o quadrado ou centralizar e incluir o original ?
É um problema se é uma variável de contagem?
Para evitar que seja uma variável de contagem, pensei em dividi-la por uma área definida teoricamente, por exemplo, 5 quilômetros quadrados. Isso deve ser um pouco semelhante ao cálculo da densidade de pontos.
Receio, porém, que, nessa situação, minha suposição inicial sobre o sinal dos coeficientes não se mantenha mais, como quando e
=
mas seria então menor porque .