Na regressão múltipla, por que as interações são modeladas como produtos, e não outra coisa, dos preditores?


8

Considere regressão linear múltipla. Essa pergunta pode ser enganosamente simples, mas estou tentando entender intuitivamente por que, digamos, se eu tenho preditores X1 e X2, as interações entre esses preditores podem ser capturadas adequadamente por X1 * X2.

Eu sei que os termos de interação são modelados como produtos, apenas porque é isso que eu aprendi na escola e é o que todo mundo diz para fazer. Acho que talvez haja algum argumento geométrico.

Mas por que um produto (digamos, dois recursos numéricos, e não a complexidade extra de multiplicar por um ser uma variável fictícia enquanto outro é numérico etc.) vai capturar adequadamente as interações?

Por que as "interações" não são melhor capturadas por outro f (X1, X2) por padrão, em vez de especificamente X1 * X2?

Eu posso ver a ideia de que X1 * X2 pode capturar situações em que os sinais de X1 e X2 são iguais ou não, mas então por que, por padrão, as interações não seriam modeladas por, digamos, f (X1, X2) = sinal (X1 ) * sinal (X2) em vez de f (X1, X2) = X1X2?

Sei que posso adicionar qualquer outro f (X1, X2) a uma regressão ou a qualquer modelo preditivo, mas encontrar o formato exato das interações por codificação manual consome muito tempo. Como sei que o X1X2 é um bom primeiro palpite?

Respostas:


6

Podemos conceber uma "interação" entre as variáveis ​​do regressor e como um afastamento de uma relação perfeitamente linearx1x2 na qual a relação entre um regressor e a resposta é diferente para valores diferentes dos outros regressores. O "termo de interação" usual é, em um sentido a ser explicado abaixo, uma partida "mais simples".

Definições e Conceitos

"Relação linear" significa simplesmente o modelo usual no qual supomos que uma resposta difere de uma combinação linear de (e uma constante) por erros independentes de média zeroYxiε:

(*)Y=β0+β1x1+β2x2+ε.

"Interação", no sentido mais geral, significa que os parâmetros podem depender de outras variáveis.βi

Especificamente, neste exemplo de apenas dois regressores, podemos escrever genericamente

β1=β1(x2) and β2=β2(x1).

Análise

Agora, na prática, ninguém, exceto um físico teórico, realmente acredita que o modelo é totalmente preciso: é uma aproximação à verdade e, esperamos, uma aproximação. Prosseguindo ainda mais essa idéia, poderíamos perguntar se poderíamos aproximar as funções maneira semelhante às lineares, caso precisemos modelar algum tipo de interação. Especificamente, poderíamos tentar escrever()βi

β1(x2)=γ0+γ1x2+ tiny error1;
β2(x1)=δ0+δ1x1+ tiny error2.

Vamos ver aonde isso leva. Conectar essas aproximações lineares em fornece()

Y=β0+β1(x2)x1+β2(x1)x2+ε=β0+(γ0+γ1x2+ tiny error1)x1+(δ0+δ1x1+ tiny error2)x2+ε=β0+γ0x1+δ0x2+(γ1+δ1)x1x2+

onde " " representa o erro total,

=( tiny error1)x1+( tiny error2)x2+ε.

Com alguma sorte, multiplicar esses dois "pequenos erros" pelos valores típicos de (a) será inconseqüente em comparação com ou (b) pode ser tratado como termos aleatórios que, quando adicionados a (e talvez ajustando o termo constante para acomodar qualquer viés sistemático) pode ser tratado como um termo de erro aleatório. xiεεβ0

Nos dois casos, com uma mudança de notação, vemos que esse modelo de aproximação linear a uma interação assume a forma

(**)Y=β0+β1x1+β2x2+β12x1x2+ε,

que é precisamente o modelo de regressão usual de "interação". (Observe que nenhum dos novos parâmetros, nem o próprio , é a mesma quantidade originalmente representada por esses termos em )ε().

Observe como surge através da variação nos dois parâmetros originais. Ele captura a combinação de (i) como o coeficiente de depende de (ou seja, através de ) e (ii) como o coeficiente de depende de (através de ).β12x1x2γ1x2x1δ1


Algumas consequências

É uma conseqüência dessa análise que, se fixarmos todos, exceto um dos regressores, ( condicionalmente ) a resposta ainda será uma função linear do regressor restante. Y Por exemplo, se fixarmos o valor de poderemos reescrever o modelo de interação comox2,()

Y=(β0+β2x2)+(β1+β12x2)x1+ε,

onde a interceptação é e a inclinação (ou seja, o coeficiente ) é Isso permite fácil descrição e insight. Geometricamente, a superfície dada pela funçãoβ0+β2x2x1β1+β2x2.

f(x1,x2)=β0+β1x1+β2x2+β12x1x2

é governado: quando o dividimos paralelamente a qualquer um dos eixos de coordenadas, o resultado é sempre uma linha. (No entanto, a superfície em si não é plana, exceto quando De fato, em todos os lugares ela possui uma curvatura gaussiana negativa.)β12=0.

Finalmente, se nossa esperança para (a) ou (b) não der certo, poderemos expandir ainda mais o comportamento funcional do original para incluir termos de segunda ordem ou superior. A realização da mesma análise mostra que isso introduzirá termos no formato e assim por diante no modelo. Nesse sentido, incluir um termo de interação (produto) é apenas o primeiro - e mais simples - passo para modelar relações não lineares entre a resposta e os regressores por meio de funções polinomiais.βix12, x22, x1x22, x12x2,

Finalmente, em seu livro EDA (Addison-Wesley 1977), John Tukey mostrou como essa abordagem pode ser realizada de maneira muito mais geral. Após a primeira "reexpressão" (ou seja, a aplicação de transformações não lineares adequadas) nos regressores e na resposta, geralmente é o caso que o modelo se aplica às variáveis ​​transformadas ou, se não, ao modelo pode ser facilmente ajustado (usando uma análise robusta de resíduos). Isso permite que uma enorme variedade de relacionamentos não lineares seja expressa e interpretada como respostas condicionalmente lineares.()()


1
Esta é uma resposta adorável e detalhada. Obrigado. Além disso, continuo vendo referências ao livro de Tukey sendo publicado neste site ... mesmo que seja tão antigo. Talvez seja hora de fazer uma leitura.
ChilliProject
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.