EDIT: Desde que fiz este post, segui com um post adicional aqui .
Resumo do texto abaixo: Estou trabalhando em um modelo e tentei regressão linear, transformações de Box Cox e GAM, mas não progredi muito
Usando R
, Eu estou trabalhando atualmente em um modelo para prever o sucesso de jogadores menores de beisebol da liga no nível principal da liga (MLB). A variável dependente, carreira ofensiva vence acima da substituição (oWAR), é um proxy para o sucesso no nível da MLB e é medida como a soma das contribuições ofensivas para cada jogada em que o jogador está envolvido ao longo de sua carreira (detalhes aqui - http : // : //www.fangraphs.com/library/misc/war/) As variáveis independentes são variáveis ofensivas da liga menor pontuadas em z para estatísticas que são consideradas preditores importantes de sucesso no nível da liga principal, incluindo idade (jogadores com mais sucesso em uma idade mais jovem tendem a ser melhores perspectivas), taxa de strike out [SOPct ], taxa de caminhada [BBrate] e produção ajustada (uma medida global da produção ofensiva). Além disso, como existem vários níveis das ligas menores, incluí variáveis fictícias para o nível de jogo da liga menor (Duplo A, Alto A, Baixo A, Novato e Temporada Curta com Triplo A [o nível mais alto antes das principais ligas] como variável de referência]). Nota: redimensionei o WAR para ser uma variável que varia de 0 a 1.
O gráfico de dispersão variável é o seguinte:
Para referência, a variável dependente, oWAR, possui o seguinte gráfico:
Comecei com uma regressão linear oWAR = B1zAge + B2zSOPct + B3zBBPct + B4zAdjProd + B5DoubleA + B6HighA + B7LowA + B8Rookie + B9ShortSeason
e obtive os seguintes gráficos de diagnóstico:
Existem problemas claros com a falta de imparcialidade dos resíduos e a falta de variação aleatória. Além disso, os resíduos não são normais. Os resultados da regressão são mostrados abaixo:
Seguindo o conselho de um tópico anterior , tentei uma transformação Box-Cox sem sucesso. Em seguida, tentei um GAM com um link de log e recebi esses gráficos:
Original
Novo gráfico de diagnóstico
Parece que os splines ajudaram a ajustar os dados, mas os gráficos de diagnóstico ainda mostram um ajuste inadequado. Edição: Eu pensei que estava olhando para os valores residuais vs valores ajustados originalmente, mas eu estava incorreto. A plotagem que foi originalmente mostrada está marcada como Original (acima) e a plotagem que enviei posteriormente é marcada como Nova plotagem de diagnóstico (também acima)
O do modelo aumentou
mas os resultados produzidos pelo comando gam.check(myregression, k.rep = 1000)
não são tão promissores.
Alguém pode sugerir um próximo passo para este modelo? Fico feliz em fornecer qualquer outra informação que você considere útil para entender o progresso que fiz até agora. Obrigado por qualquer ajuda que você pode fornecer.