Estou trabalhando em um modelo de custo preditivo em que a idade do paciente (uma quantidade inteira medida em anos) é uma das variáveis preditivas. Uma forte relação não linear entre idade e risco de internação é evidente:
Estou pensando em uma spline de suavização de regressão penalizada para a idade do paciente. De acordo com The Elements of Statistical Learning (Hastie et al, 2009, p.151), a colocação ideal do nó é de um nó por valor único da idade do membro.
Dado que estou mantendo a idade como um número inteiro, o spline de suavização penalizado é equivalente a executar uma regressão ou laço de cume com 101 variáveis distintas de indicador de idade, um valor por idade encontrado no conjunto de dados (menos um para referência)? A super parametrização é evitada, pois os coeficientes em cada indicador de idade são reduzidos para zero.