Estou procurando um estudo de caso de regressão linear avançada que ilustra as etapas necessárias para modelar relacionamentos não lineares complexos e múltiplos usando GLM ou OLS. É surpreendentemente difícil encontrar recursos que vão além dos exemplos básicos da escola: a maioria dos livros que li não vai além de uma transformação logarítmica da resposta juntamente com um BoxCox de um preditor ou um spline natural no melhor dos casos. Além disso, todos os exemplos que vi até agora abordam cada problema de transformação de dados em um modelo separado, geralmente em um único modelo preditivo.
Eu sei o que é uma transformação BoxCox ou YeoJohnson. O que estou procurando é um estudo de caso detalhado da vida real, onde a resposta / relacionamento não seja clara. Por exemplo, a resposta não é estritamente positiva (portanto, você não pode usar o log ou o BoxCox), os preditores têm relações não lineares entre si e contra a resposta, e as transformações de dados com máxima probabilidade não parecem implicar um padrão 0,33 ou 0,5 expoente. Além disso, a variância residual é constatada como não constante (nunca é), portanto a resposta também precisa ser transformada e escolhas devem ser feitas entre uma regressão da família GLM não padrão ou uma transformação de resposta. O pesquisador provavelmente fará escolhas para evitar o excesso de ajuste dos dados.
EDITAR
Até agora, reuni os seguintes recursos:
- Estratégias de modelagem de regressão, F. Harrell
- Série Econômica Aplicada, W. Enders
- Modelos lineares dinâmicos com R, G. Petris
- Análise de regressão aplicada, D. Kleinbaum
- Uma Introdução à Aprendizagem Estatística, G. James / D. Witten
Eu só li o último (ISLR) e é um texto muito bom (cinco estrelas no meu relógio), embora mais orientado para o ML do que para a modelagem de regressão avançada.
Há também uma boa publicação no CV que apresenta um caso de regressão desafiador.