Estou executando modelos de regressão LOESS em R e quero comparar as saídas de 12 modelos diferentes com tamanhos de amostra variados. Posso descrever os modelos reais em mais detalhes, se ajudar a responder à pergunta.
Aqui estão os tamanhos das amostras:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
O modelo de regressão LOESS é um ajuste de superfície, onde a localização X e a localização Y de cada campo de beisebol são usadas para prever a probabilidade de golpe sw, swing. No entanto, eu gostaria de comparar entre todos os 12 desses modelos, mas definir o mesmo intervalo (ou seja, intervalo = 0,5) produzirá resultados diferentes, pois existe uma variedade tão grande de tamanhos de amostra.
Minha pergunta básica é como você determina a extensão do seu modelo? Uma amplitude maior suaviza mais o ajuste, enquanto uma amplitude menor captura mais tendências, mas introduz ruído estatístico se houver poucos dados. Eu uso um intervalo maior para amostras menores e um intervalo menor para amostras maiores.
O que devo fazer? O que é uma boa regra geral ao definir o alcance dos modelos de regressão LOESS no R? Desde já, obrigado!