Por que alguém suprimiria a interceptação na regressão linear?


20

Em vários pacotes estatísticos, incluindo SAS, SPSS e talvez mais, existe uma opção para "suprimir a interceptação". Por que você gostaria de fazer isso?

Respostas:


16

Se por algum motivo você sabe a interceptação (especialmente se for zero), você pode evitar o desperdício de variância em seus dados para estimar algo que você já sabe, e ter mais confiança nos valores que você não têm de estimar.

Um exemplo um pouco simplificado é se você já sabe (pelo conhecimento do domínio) que uma variável é (em média) um múltiplo de outra e está tentando encontrar essa múltipla.


Eu não entendo totalmente, mas em um modelo que estou criando em R, tenho algo como lm (a ~ b / c - 1) que cria interações entre bec, e suprimindo a interceptação ("- 1" em R), recebo respostas mais facilmente interpretáveis ​​que são essencialmente iguais, como se eu não suprimisse a interceptação. De alguma forma, a interação torna isso possível.
21711 Wayne

Respostas mais facilmente interpretáveis ​​que são essencialmente as mesmas? Isso parece ser uma contradição. Talvez você deva apresentar isso como uma nova pergunta?
Nick Sabbe

Se eu olhar para os coeficientes, com a interceptação, existe um (intercepto) e um aquecedor de temperatura (uma das minhas variáveis ​​é temp que pode ser mais quente ou mais frio ). Para interpretar os coeficientes, eu tenho que saber que (interceptação) corresponde diretamente ao tempcooler e tempwarmer + (intercept) é o tempwarmer diretamente interpretável . Se eu suprimir a interceptação, vejo o tempcooler e o tempwarmer diretamente. Talvez uma peculiaridade das fórmulas de R e modelagem linear, mas ...
Wayne

12

Considere o caso de uma covariável categórica de três níveis. Se alguém tiver uma interceptação, isso exigiria 2 variáveis ​​indicadoras. Usando a codificação usual para variáveis ​​indicadoras, o coeficiente para qualquer variável indicadora é a diferença média em comparação com o grupo de referência. Ao suprimir a interceptação, você teria 3 variáveis ​​representando a covariável categórica, em vez de apenas 2. Um coeficiente é a estimativa média para esse grupo. Um exemplo mais concreto de onde fazer isso é na ciência política, onde se pode estudar os 50 estados dos Estados Unidos. Em vez de ter uma interceptação e 49 variáveis ​​indicadoras para os estados, geralmente é preferível suprimir a interceptação e, em vez disso, ter 50 variáveis.


Muito mais fácil de interpretar o coeficiente dessa forma
probabilityislogic

1
Sim, mas divide-se com duas ou mais variáveis ​​categóricas!
b Kjetil HALVORSEN

2

Para ilustrar o argumento de @Nick Sabbe com um exemplo específico.

Certa vez, vi um pesquisador apresentar um modelo da idade de uma árvore em função de sua largura. Pode-se supor que quando a árvore está com zero anos de idade, ela tem efetivamente uma largura de zero. Assim, uma interceptação não é necessária.


8
A sabedoria ou a falta dela depende do alcance da variável dependente de interesse. Considere os dados de frenagem do carro em que você tem velocidades e distâncias de parada. Você pode ajustar um modelo quadrático com ou sem interceptação. As velocidades de interesse geralmente começam em torno de 50 km / h e chegam a, digamos, 130 km / h. Ajustar um quadrático com interceptação, nesse caso, faz mais sentido, eu acho, pois forçar o intercepto a zero pode gerar (praticamente) problemas significativos de falta de ajuste. O fato de a "distância de frenagem" de um carro parado ser zero não é particularmente relevante para o problema de modelagem em questão.
cardeal

@ cardinal sim, eu queria saber se eu deveria fazer um ponto semelhante. Descobri em alguns contextos de modelagem de regressão não linear que há um interesse maior em ter um modelo que forneça um modelo teoricamente plausível que prediga com precisão fora do intervalo de dados (por exemplo, na velocidade dos dados da curva de aprendizado, os modelos não devem prever velocidades abaixo de 0 segundos ) Nesses casos, restringir uma interceptação a zero pode ser mais apropriado, mesmo que resulte em uma queda na previsão dos dados.
Jeromy Anglim

@cardinal Concordo que os modelos polinomiais raramente predizem plausivelmente fora do intervalo de dados e, portanto, restringir a interceptação a 0 nesses modelos raramente é uma boa idéia.
Jeromy Anglim

Obrigado por seus comentários. Minha observação não era muito voltada para modelos polinomiais. A escolha de um quadrático foi simplesmente baseada em uma motivação física real (isto é, mecânica clássica). O ponto que eu estava tentando articular era que se deveria considerar cuidadosamente o problema de modelagem de interesse; às vezes, fazer algo que é (ou parece) "teoricamente injustificado" é realmente mais apropriado estatisticamente.
cardeal
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.