Como verificar se meu modelo de regressão é bom


10

Uma maneira de encontrar a precisão do modelo de regressão logística usando 'glm' é encontrar o gráfico da AUC. Como verificar o mesmo para o modelo de regressão encontrado com a variável de resposta contínua (família = 'gaussiana')?

Quais métodos são usados ​​para verificar quão bem meu modelo de regressão se ajusta aos dados?


Você pode querer ter um olhar para o r-squaredtag eo goodness-of-fittag ..
Macro

2
A família "Gaussiana" com um link linear é apenas regressão de mínimos quadrados ordinários (OLS); Os métodos para verificar esses ajustes provavelmente são discutidos em mil perguntas neste site (não exagerei).
whuber

Respostas:


15

Eu sugeriria uma breve pesquisa sobre " diagnóstico de modelo de regressão linear " como começo. Mas aqui estão algumas que eu sugiro que você verifique:

Certifique-se de que as premissas sejam atendidas satisfatoriamente

  • Use gráfico de dispersão ou componente mais gráfico residual para examinar a relação linear entre os preditores independentes e a variável dependente.

  • Componha uma plotagem com valor residual padronizado versus valor previsto e garanta que não exista um ponto extremo com um resíduo muito alto, e a dispersão do resíduo seja amplamente semelhante ao valor previsto, além de se espalhar amplamente acima e abaixo da média do resíduo, zero.

  • Você também pode alterar o eixo y para 2 residual . Esse gráfico ajuda a identificar variações desiguais.2

  • Re-examine o desenho do estudo para garantir que a suposição de independência seja razoável.

  • Recupere o fator de inflação de variação (VIF) ou estatísticas de tolerância para examinar a possível colinearidade.

Examine potenciais pontos influentes

  • Verifique estatísticas como D, DFits ou DF Beta de Cook para descobrir se um determinado ponto de dados está alterando drasticamente seus resultados de regressão. Você pode encontrar mais aqui .

Examinar a mudança de e ajustado R 2 estatísticasR2R2

  • Sendo a razão da soma de regressão dos quadrados a soma total dos quadrados, pode dizer quantas% da variabilidade na variável dependente são explicados pelo modelo.R2
  • R2

Verifique a interação necessária

  • Se houver um preditor independente principal, antes de fazer qualquer interpretação de seu efeito independente, verifique se ele está interagindo com outras variáveis ​​independentes. A interação, se não for ajustada, pode influenciar sua estimativa.

Aplique seu modelo a outro conjunto de dados e verifique seu desempenho

  • Você também pode aplicar a fórmula de regressão a outros dados separados e ver quão bem ela prevê. Gráfico como gráfico de dispersão e estatísticas como% de diferença em relação ao valor observado podem servir como um bom começo.

2
(+1): resposta muito completa! Se você estiver usando R, plot.lmpoderá fornecer a maioria dos gráficos de diagnóstico mencionados pelo Penguin_Knight.
Zach

4

Gosto de validar cruzadamente meus modelos de regressão para ver quão bem eles generalizam para novos dados. Minha métrica de escolha é erro absoluto médio nos dados validados cruzadamente, mas o erro quadrático médio raiz é mais comum e igualmente útil.

Não acho que o R2 seja uma boa métrica de quão bem seu modelo se ajusta aos dados de treinamento, pois quase qualquer métrica de erro calculada nos dados de treinamento estará sujeita a excesso de ajuste. Se você deve calcular o R2 no conjunto de treinamento, sugiro usar o R2 ajustado .


1

R2

Sugiro usar o RMSE (erro médio quadrático da raiz) das suas previsões no seu conjunto de testes quando comparado ao valor real. Este é um método padrão de relatar erro de previsão de uma variável contínua.


11
@ Macro Mas a pergunta originalmente pedia uma métrica de desempenho para uma regressão OLS com erros gaussianos. Ele vem de regressão logística.
Erik

R2R2R2

@Macro, eu concordo com seus comentários, mas estava apontando para uma explicação simples para apontar o OP na direção certa
BGreene

0

Eu sou usado para verificar a forma funcional do meu estimador de parâmetros, plotando uma estimativa não paramétrica (por exemplo, uma regressão do kernel) ou semi-paramétrica e comparando-a com a curva ajustada paramétrica. Penso que este é o primeiro passo frequentemente mais rápido (e talvez mais esclarecedor) do que incluir termos de interação ou termos de ordem superior.

O pacote R np fornece muitas funções não-paramétricas e semi-paramétricas, e sua vinheta está bem escrita: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.