Não tenho um exemplo ou tarefa específica em mente. Eu sou apenas novo no uso de splines-b e queria entender melhor essa função no contexto de regressão.
Vamos supor que queremos avaliar a relação entre a variável resposta e alguns preditores x 1 , x 2 , . . . , x p . Os preditores incluem algumas variáveis numéricas e outras categóricas.
Digamos que, depois de ajustar um modelo de regressão, uma das variáveis numéricas, por exemplo, seja significativa. Um passo lógico depois é avaliar se os polinômios de ordem superior, por exemplo: x 2 1 e x 3 1, são necessários para explicar adequadamente o relacionamento sem superajustar.
Minhas perguntas são:
Em que momento você escolheu entre splines-b ou polinômio simples de ordem superior. por exemplo, em R:
y ~ poly(x1,3) + x2 + x3
vs
y ~ bs(x1,3) + x2 + x3
Como você pode usar gráficos para informar sua escolha entre esses dois e o que acontece se não estiver muito claro a partir dos gráficos (por exemplo: devido à grande quantidade de pontos de dados)
Como você avalia os termos de interação bidirecional entre e, digamos, x 3
Como as alterações acima são alteradas para diferentes tipos de modelos
Você consideraria nunca usar polinômios de alta ordem e sempre ajustar b-splines e penalizar a alta flexibilidade?
mgcv
é, por que não usar modelos aditivos (generalizados). A seleção da suavidade é automática e os métodos inferenciais são bem desenvolvidos.