Quando uso modelos de regressão, sinto desconfiança por não adotar uma premissa de associação linear; em vez disso, gosto de explorar a forma funcional das relações entre variáveis dependentes e explicativas usando regressão de suavização não paramétrica (por exemplo , modelos aditivos generalizados , lowess / lowess , smoothers de linhas de corrida etc.) antes de estimar um modelo paramétrico usando, como apropriado, regressão não linear de mínimos quadrados estimar parâmetros para funções sugeridas pelo modelo não paramétrico.
Qual é uma boa maneira de pensar sobre a execução da validação cruzada na fase de regressão de suavização não paramétrica de tal abordagem? Gostaria de saber se posso encontrar uma situação em que, na amostra A aleatória de holdout, um relacionamento aproximado por uma função de dobradiça linear "pau quebrado" possa ser evidente, enquanto a amostra B de holdout sugere um relacionamento que seria melhor aproximado por uma função de dobradiça de limiar parabólico.
Alguém poderia adotar uma abordagem não exaustiva para conter uma parte dos dados selecionada aleatoriamente, executar a regressão não paramétrica, interpretar formas funcionais plausíveis para o resultado e repetir esse número de vezes (gerenciável por humanos) e formas funcionais plausíveis mentalmente ?
Ou alguém adotaria uma abordagem exaustiva (por exemplo, LOOCV) e usaria algum algoritmo para 'suavizar todos os suaves' e usaria o mais suave dos suaves para informar formas funcionais plausíveis? (Embora, pensando bem, acho pouco provável que o LOOCV resulte em relacionamentos funcionais muito diferentes, pois é improvável que uma forma funcional em uma amostra grande o suficiente seja alterada por um único ponto de dados.)
Minhas aplicações normalmente envolvem números gerenciáveis por humanos de variáveis preditivas (um punhado a algumas dezenas, digamos), mas o tamanho da minha amostra varia de algumas centenas a algumas centenas de milhares. Meu objetivo é produzir um modelo intuitivamente comunicado e facilmente traduzido que possa ser usado para fazer previsões por pessoas com conjuntos de dados diferentes dos meus e que não incluam as variáveis de resultado.
Referências em respostas muito bem-vindas.