Penso ingênuo que a regressão linear é adequada apenas quando se suspeita que haja relações funcionais lineares entre variáveis explicativas e a variável resposta. Mas poucas aplicações do mundo real parecem atender a esse critério.
Este não é um entendimento correto do que é "linear" na "regressão linear".
Não é a relação entre y e que assume-se de forma linear (embora todos os exemplos elementares provavelmente o enganem).x
O "linear" refere-se ao modelo linear nos parâmetros e nas relações não lineares entre y e alguns certamente podem ser modeladas dessa maneira.x
Há um exemplo com um único preditor aqui , mas os modelos curvilíneos são mais frequentemente ajustados como regressão múltipla, onde várias funções de um preditor (variável x, variável independente) podem ocorrer na regressão, e isso permite muita flexibilidade. Isso inclui regressão polinomial, por exemplo. Veja algumas discussões e exemplos aqui .
No entanto, se permitirmos que os preditores possam ser transformados para ajustar relações curvas, a linearidade nos parâmetros também corresponderá à linearidade desses preditores transformados.
Além disso, muitos problemas são quase lineares (pelo menos na faixa de valores considerada) ou são tão barulhentos que qualquer curvatura suave não é discernível, e uma variedade de modelos simples para um relacionamento crescente ou decrescente pode fazer - e, nesse caso, uma escolha linear pode ser adequada e a mais simples de ajustar e entender.
Em que facetas de um projeto um estatístico experiente estaria pensando se estivesse no meu lugar, procurando uma pergunta + dados que sejam adequados para a regressão linear.
A única vez em que eu poderia procurar um problema para aplicar a regressão seria quando eu estivesse tentando encontrar um bom exemplo para o ensino. Quando, na verdade, estou na posição de fazer um trabalho estatístico (em vez de explicá-lo ou ensiná-lo), escolho a metodologia que se adequa à questão de interesse (e às características dos dados), em vez de escolher os dados que se adequam ao método.
Imagine um carpinteiro, por exemplo. O carpinteiro não pega um porta-voz e diz "em que posso usar isso ?". Em vez disso, o carpinteiro tem um problema a resolver e, ao considerar as características do problema ("o que estou tentando fazer?" E "que tipo de madeira estou usando?" E assim por diante ...), determinadas ferramentas podem ser mais relevante que outros. Às vezes, as ferramentas disponíveis podem limitar ou orientar as escolhas (se você não tem um porta-voz, pode se contentar com outra coisa ... ou pode simplesmente comprar um porta-voz).
No entanto, vamos supor que você tenha um estatístico de bolso ajudando você e que esteja tentando encontrar um problema adequado à regressão linear. Em seguida, eles podem sugerir que você considere várias suposições de regressão e quando elas são importantes. Vou mencionar algumas coisas.
E( y| g( x ) )g( X )gx∗=xE(y|x∗)=a+bx∗
Se você é capaz de usar regressão múltipla, mesmo que isso não seja especialmente importante, uma vez que é possível usar (por exemplo) splines de regressão cúbica para se ajustar a relacionamentos bastante gerais.
Eu sugiro que você evite os dados ao longo do tempo, a menos que entenda os problemas da regressão falsa; fique com problemas transversais.
xx
x
Se você estiver interessado em testes de hipóteses, intervalos de confiança ou intervalos de predição, talvez sejam necessárias mais premissas de regressão usuais (mas existem alternativas que não fazem essas premissas e, em alguns casos, pelo menos algumas das premissas não podem seja particularmente importante de qualquer maneira).
Portanto, pelo menos uma coisa que você deve estar ciente é de quais são as suposições feitas ao derivar os procedimentos inferenciais que você está usando e qual a importância deles no seu problema específico (por exemplo, ao executar os testes de hipóteses habituais, normalidade é uma suposição, mas em amostras grandes essa suposição pode não ser importante; por outro lado, a suposição de variação constante pode ser mais um problema).
Há várias postagens que discutem suposições de regressão, e algumas postagens que discutem quando elas precisam ser feitas, o quanto elas podem ser importantes e até que ordem as considerar.