Como incluir

9

Quero incluir o termo $x$ e seu quadrado $x^2$ (variáveis preditoras) em uma regressão, porque presumo que valores baixos de $x$ tenham um efeito positivo na variável dependente e valores altos tenham um efeito negativo. O $x^2$ deve capturar o efeito dos valores mais altos. Portanto, espero que o coeficiente de $x$ seja positivo e o coeficiente de $x^2$ seja negativo. Além de $x$ , eu também incluo outras variáveis preditoras.

Li em alguns posts aqui que é uma boa idéia centralizar as variáveis nesse caso para evitar a multicolinearidade. Ao realizar uma regressão múltipla, quando você deve centralizar suas variáveis preditoras e quando deve padronizá-las?

Devo centralizar as duas variáveis separadamente (na média) ou devo centralizar $x$ e, em seguida, pegar o quadrado ou centralizar $x^2$ e incluir o original $x$ ?
É um problema se $x$ é uma variável de contagem?

Para evitar que $x$ seja uma variável de contagem, pensei em dividi-la por uma área definida teoricamente, por exemplo, 5 quilômetros quadrados. Isso deve ser um pouco semelhante ao cálculo da densidade de pontos.

Receio, porém, que, nessa situação, minha suposição inicial sobre o sinal dos coeficientes não se mantenha mais, como quando $x=2$ e $x²=4$

$x= 2 / 5 \text{ km}^2$ = $0.4 \text{ km}^2$

mas $x^2$ seria então menor porque $x^2= (2/5)^2= 0.16$ .

— Peter
fonte

11

Seu software de regressão cuidará de problemas numéricos automaticamente - em particular, é altamente provável que centralize e padronize seus dados internamente. Como responder a suas perguntas sobre centralização se resume a como você deseja interpretar os coeficientes.

— whuber

4

Sua pergunta é de fato composta de várias sub-perguntas, que tentarei abordar da melhor maneira possível.

Como distinguir a dependência de valores altos e baixos de uma regressão?

Considerando e é uma maneira de fazê-lo, mas você tem certeza de que seu teste é conclusivo? Você será capaz de concluir algo útil para todos os resultados possíveis da regressão? Penso que colocar a pergunta claramente de antemão pode ajudar, e fazer perguntas semelhantes e relacionadas também pode ajudar. Por exemplo, você pode considerar um limite de para o qual as inclinações de regressão são diferentes. Isso pode ser feito usando variáveis moderadoras . Se as diferentes inclinações (enquanto impõem a mesma interceptação) são compatíveis, você não tem diferença; caso contrário, forneceu a si próprio um argumento claro para a diferença. $x$ $x^2$ $x$

Quando você deve centralizar e padronizar?

Acho que essa pergunta não deve ser misturada à primeira e ao teste, e receio que centrar-se em torno de ou antecipadamente possa influenciar os resultados. Eu aconselho a não centralizar, pelo menos em um primeiro estágio. Lembre-se de que você provavelmente não morrerá de multicolinearidade, muitos autores argumentam que é apenas equivalente a trabalhar com um tamanho de amostra menor ( aqui e aqui ). $x$ $x^2$

A transformação da variável de contagem discreta em uma variável de ponto flutuante (contínua) altera a interpretação dos resultados?

Sim, mas isso dependerá muito dos 2 primeiros pontos, então eu sugiro que você lide com uma coisa de cada vez. Não vejo razão para a regressão não funcionar sem essa transformação; portanto, aconselho que você a ignore por enquanto. Observe também que, ao dividir por um elemento comum, você está alterando a escala na qual , mas existem maneiras completamente diferentes de vê-lo, como escrevi acima, nas quais esse limite é considerado de maneira mais explícita. $x^2 = x$

— pedrofigueira
fonte

Muito obrigado pela sua resposta, especialmente pelos links !!!

— Peter

Foi um prazer ajudar. =)

— pedrofigueira 25/05

4

Em geral, a centralização poderia ajudar a reduzir a multicolinearidade, mas "você provavelmente não morrerá de multicolinearidade" (consulte a resposta da predrofigueira).

Mais importante ainda, é necessário centralizar para tornar a interceptação significativa. No modelo simples , a interceptação é definida como o resultado esperado para . Se um valor de zero não for significativo, nem o itercept será. Muitas vezes, é útil centralizar a variável torno de sua média; nesse caso, o preditor tem a forma e a interceptação é o resultado esperado para um sujeito cujo valor em é igual à média . $y_i=\alpha+\beta x_i+\varepsilon$ $x=0$ $x$ $x$ $(x_i-\bar{x})$ $\alpha$ $x_i$ $\bar{x}$

Nesses casos, você deve centralizar e depois quadrado. Você não pode centralizar e separadamente, porque está regredindo o resultado em uma variável "nova" ; portanto, você deve essa nova variável. O que poderia centralizar significa? $x$ $x$ $x^2$ $(x_i-\bar{x})$ $x^2$

Você pode centralizar uma variável de contagem, se sua média for significativa , mas você pode apenas escalá- la. Por exemplo, se e "2" puderem ser uma linha de base, você pode subtrair 2: . A interceptação se torna o resultado esperado para um sujeito cujo valor em é igual a "2", um valor de referência. $x=1,2,3,4,5$ $(x_i-2)=-1,0,1,2,3$ $x_i$

Quanto à divisão, não há problema: seus coeficientes estimados seriam maiores! Gelman e Hill , §4.1, dão um exemplo:

\begin{aligned} earnings & = - 61000 + 1300 \cdot height (in inches) + error \\ earnings & = - 61000 + 51 \cdot height (in millimeters) + error \\ earnings & = - 61000 + 81000000 \cdot height (in miles) + error \end{aligned}

$\begin{align} \text{earnings}&=-61000+1300\cdot\text{height (in inches)}+\text{error} \\ \text{earnings}&=-61000+51\cdot\text{height (in millimeters)}+\text{error}\\ \text{earnings}&=-61000+81000000\cdot\text{height (in miles)}+\text{error} \end{align}$

Uma polegada é milímetros, então é . Uma polegada é emiles, então é . Mas essas três equações são totalmente equivalentes. $25.4$ $51$ $1300/25.4$ $1.6e-5$ $81000000$ $1300/1.6e-5$

— Sergio
fonte

relacionados .

— Henrik

Obrigado pela sua resposta Sergio. Isso realmente me ajudou. Infelizmente, só posso marcar uma resposta como minha resposta aceita.

— Peter

De nada. E não se preocupe ;-)

— Sergio #:

1

Suponho que valores baixos de x tenham um efeito positivo na variável dependente e valores altos tenham um efeito negativo.

Embora aprecie o tratamento de centralização e interpretação de coeficientes de outras pessoas, o que você descreveu aqui é simplesmente um efeito linear. Em outras palavras, o que você descreveu não indica nenhuma necessidade de testar o quadrado de x .

— rolando2
fonte

Na minha opinião, se , o efeito (parcial) de em (ou, melhor, em ) é . Tais efeitos são constantes, não dependem do nível de . Se o modelo é , o efeito parcial de é e depende do nível de . Isso também pode acontecer em outros modelos, por exemplo, em modelos de spline linear, mas não em um modelo linear simples (1º grau). Estou errado?

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + ε

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\varepsilon$

x_{i}

$x_i$

y

$y$

E [y ∣ x]

$E[y\mid \mathbf{x}]$

\partial E [y ∣ x] / \partial x_{i} = β_{i}

$\partial E[y\mid \mathbf{x}]/\partial x_i=\beta_i$

x_{i}

$x_i$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{2}^{2} + ε

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\beta_3x_2^2+\varepsilon$

x_{2}

$x_2$

β_{2} + 2 β_{3} x_{2}

$\beta_2+2\beta_3x_2$

x_{2}

$x_2$

— Sergio

@ rolando2: Não tenho certeza se falamos sobre a mesma coisa. Se eu incluir apenas a variável preditora regular, obterá um coeficiente estimado para esse preditivo positivo ou negativo. Com base no coeficiente, posso dizer que, ao adicionar uma unidade a x, y aumentará ou diminuirá em uma certa quantidade. Mas não consigo descobrir dessa maneira se pequenos valores realmente levam a um aumento de y, enquanto valores mais altos (de um certo ponto desconhecido) levam a uma diminuição de y.

— Peter

@ Peter - eu entendo e sugiro que você edite a frase "presumo" da sua pergunta para ler: "Presumo que, em alguma região de x, valores mais altos de x tenham um efeito positivo na variável dependente, enquanto em outra região, valores mais altos têm um efeito negativo ".

— Rolando2 26/05