Validação cruzada com regressões não paramétricas de suavização

Quando uso modelos de regressão, sinto desconfiança por não adotar uma premissa de associação linear; em vez disso, gosto de explorar a forma funcional das relações entre variáveis dependentes e explicativas usando regressão de suavização não paramétrica (por exemplo , modelos aditivos generalizados , lowess / lowess , smoothers de linhas de corrida etc.) antes de estimar um modelo paramétrico usando, como apropriado, regressão não linear de mínimos quadrados estimar parâmetros para funções sugeridas pelo modelo não paramétrico.

Qual é uma boa maneira de pensar sobre a execução da validação cruzada na fase de regressão de suavização não paramétrica de tal abordagem? Gostaria de saber se posso encontrar uma situação em que, na amostra A aleatória de holdout, um relacionamento aproximado por uma função de dobradiça linear "pau quebrado" possa ser evidente, enquanto a amostra B de holdout sugere um relacionamento que seria melhor aproximado por uma função de dobradiça de limiar parabólico.

Alguém poderia adotar uma abordagem não exaustiva para conter uma parte dos dados selecionada aleatoriamente, executar a regressão não paramétrica, interpretar formas funcionais plausíveis para o resultado e repetir esse número de vezes (gerenciável por humanos) e formas funcionais plausíveis mentalmente ?

Ou alguém adotaria uma abordagem exaustiva (por exemplo, LOOCV) e usaria algum algoritmo para 'suavizar todos os suaves' e usaria o mais suave dos suaves para informar formas funcionais plausíveis? (Embora, pensando bem, acho pouco provável que o LOOCV resulte em relacionamentos funcionais muito diferentes, pois é improvável que uma forma funcional em uma amostra grande o suficiente seja alterada por um único ponto de dados.)

Minhas aplicações normalmente envolvem números gerenciáveis por humanos de variáveis preditivas (um punhado a algumas dezenas, digamos), mas o tamanho da minha amostra varia de algumas centenas a algumas centenas de milhares. Meu objetivo é produzir um modelo intuitivamente comunicado e facilmente traduzido que possa ser usado para fazer previsões por pessoas com conjuntos de dados diferentes dos meus e que não incluam as variáveis de resultado.

Referências em respostas muito bem-vindas.

cross-validation nonparametric-regression

— Alexis
fonte

Ajudaria a esclarecer sua pergunta: o que você deseja alcançar com a validação cruzada? Determinar qual modelo de suavização funciona melhor?

— Jubo

Obrigado. Estou interessado em gerar modelos preditivos paramétricos com validação cruzada. No entanto, não me sinto confortável com a suposição de relações funcionais lineares entre variáveis dependentes e independentes. Portanto, a abordagem não-paramétrica não-linear -> paramétrica que descrevi acima. Estou interessado em obter o CV na primeira etapa para validar as formas funcionais sugeridas (por exemplo, diferentes subamostras sugeridas sugerem funções diferentes?).

— Alexis19 /

-1

Parece-me que há duas confusões na sua pergunta:

Primeiro, a regressão linear (mínimos quadrados) não requer uma relação linear nas variáveis independentes , mas nos parâmetros .

Assim, pode ser estimado por mínimos quadrados comuns ( é uma função linear dos parâmetros , , ), enquanto não pode ( não é linear no parâmetro ). $y=a + b \cdot x e^{-x} + c \cdot \frac{z}{1 + x^2}$ $y$ $a$ $b$ $c$ $y = a + b \cdot x + b^2 \cdot z$ $y$ $b$
Segundo, como você determina um modelo funcional "correto" de uma maneira mais suave, ou seja, como você vai da etapa 1 à etapa 2?

Até onde eu sei, não há como inferir "quais funções dos regressores usar" a partir de técnicas de suavização, como splines, redes neurais, etc. parece muito robusto para mim e parece que não é necessário suavizar isso, apenas gráficos de dispersão.

Se seu objetivo final é um modelo de regressão linear e seu problema é que você não sabe exatamente qual forma funcional dos regressores deve ser usada, seria melhor ajustar diretamente um modelo de regressão linear regularizado (como o LASSO ) com um expansão ampla de base dos regressores originais (como polinômios dos regressores, exponenciais, logs, ...). O procedimento de regularização deve então eliminar os regressores desnecessários, deixando-o com um modelo paramétrico (espero que bom). E você pode usar a validação cruzada para determinar o parâmetro de penalização ideal (que determina os graus reais de liberdade do modelo).

Você sempre pode usar regressões não paramétricas como referência para erro de generalização, como uma maneira de verificar se seu modelo linear regularizado prediz dados externos da mesma forma que uma suavização não paramétrica.

— jubo
fonte

Seu primeiro ponto: estou me comunicando mal. Estou interessado nas parametrizações não lineares conforme você indica (por exemplo, a função de dobradiça: , em que também é um parâmetro ser estimado). A motivação para esta pergunta é porque me pergunto: a subamostra A de retenção sugerirá, digamos, uma função de dobradiça de "bastão quebrado", enquanto a subamostra de retenção B sugere uma função de dobradiça de limiar parabólico? Não estou procurando relações funcionais "corretas" (possivelmente não lineares nas parametrizações), mas sim relações "preditivas". O CV tem um papel a desempenhar aqui?

β_{x} x + β_{h} max (x - θ, 0)

$\beta_{x}x + \beta_{\text{h}}\max(x-\theta,0)$

θ

$\theta$

— Alexis19 /

Seu segundo ponto: você está certo ao dizer que passar do passo 1 para o 2 implica intuição. No entanto, um benefício do uso de uma abordagem "não robusta" (em oposição às abordagens algorítmicas de ajuste de curvas) é que, na minha experiência, é possível comunicar a relação entre resultado e preditor com uma parametrização razoavelmente intuitiva (por exemplo, funções polinomiais fracionárias que (lembre-se de uma forma / forma específica), com erros razoavelmente próximos da abordagem algorítmica. Então: melhor do que suposições de parâmetros lineares, mas mantendo a interpretabilidade para o público.

— Alexis

Não está claro para mim que o LASSO atenderia minhas necessidades: não estou em uma situação de .

p > n

$p > n$

— Alexis27 /

Peço que você reconsidere seu comentário sobre o laço. Embora o laço tenha sido projetado com em mente, sua utilidade não se limita a essa situação, principalmente quando se busca um modelo parcimonioso (pequeno) com alto poder preditivo. jubo estava sugerindo expandir o número de covariáveis adicionando uma grande base de expansão, splines ou polinômios ortogonais e deixando o laço escolher os relevantes.

p > n

$p > n$

— Matthew Drury

Não tenho certeza se uma abordagem de laço para splines é realmente ideal, porque eles tendem a ter suporte estreito (para os cubicos, acredito que sejam suportados entre quatro nós consecutivos). Alguma combinação de penalidades L1 e L2 com o glmnet pode funcionar.

— Matthew Drury