Escolhendo o melhor modelo dentre os diferentes "melhores" modelos

28

Como você escolhe um modelo dentre os diferentes modelos escolhidos por diferentes métodos (por exemplo, seleção anterior ou posterior)?

Além disso, o que é um modelo parcimonioso?

regression model-selection

— tom
fonte

Eu editei o título para (espero) tornar seu argumento mais claro.

39

Um modelo parcimonioso é um modelo que realiza um nível desejado de explicação ou previsão com o menor número possível de variáveis preditoras.

Para avaliação do modelo, existem métodos diferentes, dependendo do que você deseja saber. Geralmente, existem duas maneiras de avaliar um modelo: Com base em previsões e com base na adequação dos dados atuais. No primeiro caso, você deseja saber se o seu modelo prevê adequadamente novos dados; no segundo, deseja saber se o modelo descreve adequadamente as relações nos dados atuais. Essas são duas coisas diferentes.

Avaliação com base em previsões

A melhor maneira de avaliar os modelos usados para previsão é a validação cruzada. Muito brevemente, você cortou seu conjunto de dados, por exemplo. 10 peças diferentes, use 9 delas para construir o modelo e prever os resultados para o décimo conjunto de dados. Uma diferença quadrática média simples entre os valores observados e previstos fornece uma medida para a precisão da previsão. Ao repetir isso dez vezes, você calcula a diferença quadrática média em todas as dez iterações para chegar a um valor geral com um desvio padrão. Isso permite comparar novamente dois modelos em sua precisão de previsão usando técnicas estatísticas padrão (teste t ou ANOVA).

Uma variante do tema é o critério PRESS (soma dos quadrados da previsão), definida como

$\displaystyle\sum^{n}_{i=1} \left(Y_i - \hat{Y}_{i(-i)}\right)^2$

Where $\hat{Y}_{i(-i)}$ is the predicted value for the ith observation using a model based on all observations minus the ith value. This criterion is especially useful if you don't have much data. In that case, splitting your data like in the crossvalidation approach might result in subsets of data that are too small for a stable fitting.

Avaliação com base na qualidade do ajuste

Deixe-me primeiro declarar que isso realmente difere dependendo da estrutura do modelo que você usa. Por exemplo, um teste de razão de verossimilhança pode funcionar para modelos mistos aditivos generalizados ao usar o gaussiano clássico para os erros, mas não faz sentido no caso da variante binomial.

Primeiro, você tem os métodos mais intuitivos de comparação de modelos. Você pode usar o Critério de Informação Aikake (AIC) ou o Critério de Informação Bayesiano (BIC) para comparar a qualidade do ajuste para dois modelos. Mas nada diz que os dois modelos realmente diferem.

Outro é o critério Cp de Mallow. Isso essencialmente verifica a possível tendência no seu modelo, comparando o modelo com todos os submodelos possíveis (ou uma seleção cuidadosa deles). Veja também http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf

Se os modelos que você deseja comparar são modelos aninhados (ou seja, todos os preditores e interações do modelo mais parcimonioso ocorrem também no modelo mais completo), você pode usar uma comparação formal na forma de um teste de razão de verossimilhança (ou um teste qui-quadrado ou um teste F nos casos apropriados, por exemplo, ao comparar modelos lineares simples ajustados usando mínimos quadrados). Esse teste controla essencialmente se os preditores ou interações extras realmente melhoram o modelo. Este critério é frequentemente usado em métodos passo a passo para frente ou para trás.

Sobre a seleção automática de modelos

Você tem advogados e inimigos deste método. Pessoalmente, não sou a favor da seleção automática de modelos, especialmente quando se trata de descrever modelos, e isso por várias razões:

Em todo modelo, você deve ter verificado se lida adequadamente com a confusão. De fato, muitos conjuntos de dados têm variáveis que nunca devem ser colocadas em um modelo ao mesmo tempo. Muitas vezes as pessoas esquecem de controlar isso.
A seleção automática de modelo é um método para criar hipóteses, não para testá-las. Toda inferência baseada em modelos originários da seleção automática de modelos é inválida. Não há como mudar isso.
Eu já vi muitos casos em que, começando em um ponto de partida diferente, uma seleção gradual retornou um modelo completamente diferente. Esses métodos estão longe de ser estáveis.
Também é difícil incorporar uma regra decente, pois os testes estatísticos para comparar dois modelos exigem que os modelos sejam aninhados. Se você usar, por exemplo, AIC, BIC ou PRESS, o ponto de corte para quando uma diferença é realmente importante é escolhido arbitrariamente.

Então, basicamente, vejo mais na comparação de um conjunto seleto de modelos escolhidos anteriormente. Se você não se importa com a avaliação estatística do modelo e o teste de hipóteses, pode usar a validação cruzada para comparar a precisão preditiva de seus modelos.

Mas se você está realmente buscando a seleção de variáveis para fins preditivos, pode dar uma olhada em outros métodos de seleção de variáveis, como Máquinas de Vetor de Suporte, Redes Neurais, Florestas Aleatórias e coisas do gênero. Estes são usados com mais frequência, por exemplo, na medicina para descobrir quais das mil proteínas medidas podem prever adequadamente se você tem câncer ou não. Apenas para dar um exemplo (famoso):

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

Todos esses métodos também possuem variantes de regressão para dados contínuos.

— Joris Meys
fonte

Qual modelo você selecionaria entre Mallows Cp e seleção para trás? Modelos com baixo SSE e coeficientes significativos também são bons?

— Tom

2

@ tom: você está comparando maçãs com laranjas. seleção reversa é um método, Mallows Cp é um critério. O Cp de Mallow pode ser usado como critério para seleção inversa. E como você pode ler, eu não faço seleção para trás. Se eu precisar selecionar variáveis, uso métodos apropriados para isso. Não mencionei os métodos LASSO e LAR aos quais Peter Flom se referiu, mas eles definitivamente valem a pena tentar também.

— Joris Meys

x

$x$

x - 1

$x-1$

2

@FrankHarrell um pouco de simulação pode provar que a correlação entre os valores p (presumindo que você esteja falando sobre o teste F ou equivalente) e o AIC é inexistente (0,01 na minha simulação). Portanto, não, não há relação entre os valores P e o AIC. Mesmo para BIC e Cp. Outra pequena simulação também provará que se obtém resultados bastante diferentes em um procedimento gradual, dependendo do critério usado. Portanto, não: Cp, AIC, BIC não são de forma alguma apenas transformações de valores-P. De fato, se olhar para as fórmulas, de maneira alguma posso apontar para um link ou transformação matemática.

— Joris Meys

1

@FrankHarrell, o que não significa que estou defendendo pro stepwise, pelo contrário. Mas sua declaração é pelo menos formulada um pouco forte.

— Joris Meys

20

$\alpha=0.50$

— Frank Harrell
fonte

A questão não é passo a passo, mas sobre a seleção do melhor modelo entre os resultados de diferentes abordagens ...

— Joris Meys

4

Eu gosto muito de "a parcimônia é seu inimigo".

— Peter Flom - Restabelece Monica

1

Obrigado Peter. Joris - a seleção entre diferentes abordagens difere um pouco da seleção gradual, mas não muito.

— Frank Harrell

16

Usar a seleção para trás ou para frente é uma estratégia comum, mas não uma que eu possa recomendar. Os resultados dessa construção de modelo estão todos errados. Os valores de p são muito baixos, os coeficientes são desviados de 0 e existem outros problemas relacionados.

Se você precisar fazer a seleção automática de variáveis, eu recomendaria o uso de um método mais moderno, como LASSO ou LAR.

Eu escrevi uma apresentação do SAS sobre isso, intitulada "Parando passo a passo: por que métodos passo a passo e similares são ruins e o que você deve usar"

Mas, se possível, eu evitaria completamente esses métodos automatizados e confiaria na experiência no assunto. Uma idéia é gerar 10 modelos razoáveis e compará-los com base em um critério de informação. @Nick Sabbe listou vários deles em sua resposta.

— Peter Flom - Restabelecer Monica
fonte

2

+1 para a referência do artigo. Embora eu não codifique no SAS, li-o há vários meses e achei um tratamento agradável e de alto nível para o problema.

— Josh Hemann 26/10/11

11

A resposta para isso dependerá muito do seu objetivo. Você pode estar procurando coeficientes estatisticamente significativos ou pode evitar o máximo de classificações erradas possível ao prever o resultado para novas observações, ou pode simplesmente estar interessado no modelo com o mínimo de falsos positivos; talvez você queira simplesmente a curva mais próxima dos dados.

Em qualquer um dos casos acima, você precisa de algum tipo de medida para o que está procurando. Algumas medidas populares com diferentes aplicações são AUC, BIC, AIC, erro residual, ...

Você calcula a medida que melhor corresponde ao seu objetivo para cada modelo e compara as 'pontuações' para cada modelo. Isso leva ao melhor modelo para seu objetivo.

Algumas dessas medidas (por exemplo, AIC) colocam um estresse extra no número de coeficientes diferentes de zero no modelo, porque o uso em excesso pode simplesmente superaquecer os dados (para que o modelo seja inútil se você usá-lo para novos dados, muito menos para a população). Pode haver outras razões para exigir que um modelo contenha variáveis 'o menos possível', por exemplo, se é simplesmente caro medir todas elas para previsão. A 'simplicidade de' ou 'pequeno número de variáveis' em um modelo é normalmente referida como parcimônia.

Portanto, em resumo, um modelo parcimônico é um modelo "simples", sem conter muitas variáveis.

Como muitas vezes com esse tipo de perguntas, vou encaminhá-lo ao excelente livro Elements of Statistical Learning para obter informações mais aprofundadas sobre o assunto e questões relacionadas.

— Nick Sabbe
fonte

1

Bom livro que você recomenda lá. Outro que eu poderia recomendar é o Modelo Estatístico Linear Aplicado, que contém algumas seções sobre critérios de seleção, seleção e comparação de modelos.

— Joris Meys

-1

Achei a discussão aqui interessante, especialmente o debate entre parcimonioso e modelo, com maior número de coeficientes e variáveis.

Meu prof. Ultimamente, o Dr. Steve costumava enfatizar um modelo parcimonioso com baixo R ^ 2 em comparação com outro modelo com melhores ajustes / R ^ 2 grande.

Obrigado por todos os peixes aqui!

Akash

— Akash Sondhi - Modelador Iniciante
fonte