O que exatamente é a "seleção de modelo por etapas"?

Embora os méritos da seleção de modelos por etapas tenham sido discutidos anteriormente, não está claro para mim o que exatamente é " seleção de modelos por etapas " ou " regressão por etapas ". Eu pensei que tinha entendido, mas não tenho mais tanta certeza.

Meu entendimento é que esses dois termos são sinônimos (pelo menos em um contexto de regressão) e se referem à seleção do melhor conjunto de variáveis preditivas em um modelo "ótimo" ou "melhor" , dados os dados. (Você pode encontrar a página da Wikipedia aqui e outra visão geral potencialmente útil aqui .)

Com base em vários encadeamentos anteriores (por exemplo, aqui: algoritmos para seleção automática de modelo ), parece que a seleção de modelo por etapas é considerada um pecado fundamental. E, no entanto, parece ser usado o tempo todo, inclusive pelo que parecem ser estatísticos bem respeitados. Ou estou misturando a terminologia?

Minhas principais perguntas são:

Por "seleção de modelo por etapas" ou "regressão por etapas", queremos dizer:
A ) testes de hipóteses seqüenciais, como testes de razão de verossimilhança ou análise de valores de p? (Há um post relacionado aqui: Por que os valores p enganam após a execução de uma seleção gradual? ) É isso que significa isso e por que é ruim?
Ou
B ) também consideramos a seleção baseada na AIC (ou critério de informação semelhante) igualmente ruim? A partir da resposta em Algoritmos para seleção automática de modelo , parece que isso também é criticado. Por outro lado, Whittingham et al. (2006; pdf ) ¹ parece sugerir que a seleção de variáveis com base na abordagem da teoria da informação (TI) é diferente da seleção gradual (e parece ser uma abordagem válida) ...?

E esta é a fonte de toda a minha confusão.

Para acompanhar, se a seleção baseada na AIC se enquadrar em "stepwise" e for considerada inadequada, aqui estão algumas perguntas adicionais:
Se essa abordagem está errada, por que é ensinada em livros didáticos, cursos universitários etc.? Tudo isso está errado?
Quais são as boas alternativas para selecionar quais variáveis devem permanecer no modelo? Encontrei recomendações para usar conjuntos de dados de validação cruzada e teste de treinamento e o LASSO.
Acho que todos podem concordar que jogar indiscriminadamente todas as variáveis possíveis em um modelo e fazer a seleção gradual é problemático. Certamente, algum julgamento sensato deve guiar o que entra inicialmente. Mas e se já começarmos com um número limitado de possíveis variáveis preditivas baseadas em algum conhecimento (digamos biológico), e todos esses preditores podem estar explicando nossa resposta? Essa abordagem de seleção de modelos ainda seria falha? Também reconheço que a seleção do "melhor" modelo pode não ser apropriada se os valores da AIC entre os diferentes modelos forem muito semelhantes (e a inferência multi-modelo pode ser aplicada nesses casos). Mas a questão subjacente ao uso da seleção gradual baseada na AIC ainda é problemática?

Se estamos procurando ver quais variáveis parecem explicar a resposta e de que maneira, por que essa abordagem está errada, pois sabemos que "todos os modelos estão errados, mas alguns são úteis"?

_{1. Whittingham, MJ, Stephens, Pensilvânia, Bradbury, RB e Freckleton, RP (2006). Por que ainda usamos modelagem gradual em ecologia e comportamento? Jornal de Ecologia Animal, 75, pp. 1182-1189.}

— Tilen
fonte

o AIC e o valor p são enganosos usando a regressão passo a passo! Você pode encontrar uma explicação intuitiva aqui com um exemplo de regressão passo a passo usando AIC aqui: metariat.wordpress.com/2016/12/19/...

— Metariat

Você poderia esclarecer o que exatamente não está claro para você no tópico Algoritmos para seleção automática de modelo a que se refere ...? Parece que responde a todas as suas perguntas, dando uma resposta bastante detalhada. Respondendo à pergunta básica: a seleção do modelo passo a passo é fazer a regressão com vários preditores e, em seguida, eliminar um de cada vez (ou adicionar um de cada vez) com base em alguns critérios de melhoria do modelo até encontrar o "melhor" modelo.

— Tim

@ Tim, desculpas pelo atraso na resposta. Bem, não, acho que não responde a todas as minhas perguntas e vários problemas permanecem obscuros (para mim). 1), eu queria esclarecer a terminologia, como várias fontes usam termos diferentes, então eu queria entender completamente se os termos aos quais estou me referindo são sinônimos ou não. 2) Embora eu possa entender a partir desse tópico que os problemas são os mesmos, independentemente dos critérios usados, há inconsistência na literatura. 3) ao ler artigos e livros, parece haver discordância sobre o que é apropriado e o que não é (ou quando).

— Tilen

4) uma das minhas perguntas também foi por que isso ainda está sendo ensinado (por nomes aparentemente bem informados), se é considerado errado. Eu queria entender se isso é coisa do passado (mas não parece ser, dado o momento da publicação de certos livros), diferentes escolas de pensamento ou simplesmente ignorância. 5) Eu queria entender se essa abordagem está errada, mesmo que o conjunto inicial de variáveis preditoras de candidatos já esteja limitado. Em outras palavras, meu interesse pessoal é encontrar um melhor conjunto de preditores, dado um conjunto já reduzido e bem pensado.

— Tilen

Resumindo, mesmo que a discussão sobre os algoritmos para a seleção automática de modelos fosse muito informativa e útil, ela ainda me deixou com muitas perguntas e confusão.

— Tilen

Respostas:

$p$ - valores de coeficientes de regressão, calculados da maneira comum, são usados para determinar quais covariáveis são adicionadas ou removidas de um modelo, e esse processo é repetido várias vezes. Pode se referir a (a) uma variação específica deste procedimento, na qual variáveis podem ser adicionadas ou removidas a qualquer passo (acho que isso é o que o SPSS chama de "stepwise"), ou pode se referir a (b) essa variação junto com outras variações como adicionar apenas variáveis ou remover variáveis. Mais amplamente, "stepwise" pode ser usado para se referir a (c) qualquer procedimento no qual os recursos são adicionados ou removidos de um modelo de acordo com algum valor calculado toda vez que um recurso (ou conjunto de recursos) é adicionado ou removido.

$p$

2) Porque a educação estatística é realmente ruim. Para dar apenas um exemplo: até onde eu sei da minha própria educação, aparentemente é considerado uma parte essencial do ensino de estatística para os profissionais de psicologia dizer aos alunos que usem a correção de Bessel para obter estimativas imparciais da DS da população. É verdade que a correção de Bessel torna a estimativa da variação imparcial, mas é fácil provar que a estimativa do DP ainda é tendenciosa. Melhor ainda, a correção de Bessel pode aumentar o MSE dessas estimativas.

3) A seleção variável é praticamente um campo em si. A validação cruzada e as divisões de teste de trem são maneiras de avaliar um modelo, possivelmente após a seleção de recursos; eles próprios não fornecem sugestões para quais recursos usar. O laço é frequentemente uma boa escolha. Então, é o melhor subconjunto.

4) Na minha opinião, ainda não faz sentido usar (b), especialmente quando você pode fazer outra coisa em (c), como usar AIC. Não tenho objeções à seleção gradual baseada na AIC, mas esteja ciente de que ela será sensível à amostra (em particular, como as amostras crescem arbitrariamente grandes, a AIC, como o laço, sempre escolhe o modelo mais complexo), então não ' apresentar a seleção do modelo em si como se fosse uma conclusão generalizável.

Se estamos olhando para ver quais variáveis parecem explicar a resposta e de que maneira

Por fim, se você quiser observar os efeitos de todas as variáveis, precisará incluir todas as variáveis e, se sua amostra for muito pequena para isso, precisará de uma amostra maior. Lembre-se, hipóteses nulas nunca são verdadeiras na vida real. Não haverá muitas variáveis associadas a um resultado e muitas outras variáveis que não estão . Toda variável será associada ao resultado - as perguntas são em que grau, em que direção, em que interações com outras variáveis, etc.

— Kodiologist
fonte

Re (4): @gung tem 220 votos positivos por suas críticas aos procedimentos passo a passo em stats.stackexchange.com/questions/20836 , mas acho que essas críticas se aplicariam aos procedimentos baseados na AIC exatamente da mesma maneira que no valor-p- os baseados.

— Ameba

@amoeba Os pontos numerados de Frank Harrell parecem se aplicar principalmente a (b) (e seu ponto 9 é uma vantagem, não uma desvantagem). A descrição de Gung de como selecção do modelo pode overfit é correto, mas que a validação de que modelo é para, e que o problema se aplica a todos os cenários de seleção de modelo

— Kodiologist

Eu acho que a resposta de Gung, bem como os pontos de Frank citados, são sobre seleção gradual, sem qualquer validação de modelo externo. Claramente, se uma seleção gradual é colocada em um loop de validação cruzada, não há nenhum problema de princípio com ela, mesmo que seja baseado em valores-p. Se ele se ajustar demais, veremos isso no desempenho com validação cruzada. Críticas como "Ele produz valores ao quadrado R muito tendenciosos para serem altos" só fazem sentido se forem feitos sem validação cruzada.

— Ameba

p

$p$

@ Kodiologist, obrigado pela resposta, é muito útil. 1) Os comentários que se seguiram foram uma revelação para mim: eu não havia percebido que toda essa discussão no outro segmento era baseada em uma premissa de não validação de modelo. Eu considerei a validação do modelo uma parte essencial em qualquer caso, independentemente do método de seleção de variáveis. 2) No que diz respeito ao mau ensino, ainda estou confuso, pois pessoas / universidades / livros aparentemente bem respeitados parecem ensiná-lo ou usá-lo. Por exemplo, Zuur et al. 2009 (modelos de efeitos mistos e extensões em ecologia com R), bem como outros (Faraway 2005, 2006, se não me engano).

— Tilen 15/03/19

Em relação ao stepwise vs. AIC

Stepwise é um termo que descreve a maneira como uma sequência de modelos é construída e, possivelmente, a maneira como um modelo é selecionado dentro da sequência.

Na construção do modelo passo a passo , as variáveis são adicionadas ou removidas uma a uma ou em grupos de acordo com alguma regra para definir qual das variáveis deve / deve ser adicionada / removida. Isso está de acordo com o ponto de Kodiologist (c).
Na seleção passo a passo do modelo , compara-se os modelos vizinhos na sequência e para quando o modelo em consideração parece superior aos dois vizinhos (o anterior e o posterior). Isso pode ser feito observando diferentes propriedades dos modelos, por exemplo, seus valores AIC, p-valores, etc.

Enquanto isso,

AIC é uma medida da qualidade relativa de modelos estatísticos para um determinado conjunto de dados. ( Wikipedia )

AIC pode ser aplicada para selecionar um modelo de um conjunto de candidatos. Pode ser usado como critério de seleção na seleção gradual, mas não apenas.

Portanto, stepwise e AIC são dois aspectos diferentes da seleção de modelos que podem ser usados juntos ou separadamente, e dependendo disso e de outras considerações pode ou não ser apropriado.

— Richard Hardy
fonte

obrigado por sua resposta útil também. Sim, eu sei que o AIC pode ser usado separadamente do passo a passo. No meu campo (biologia), no entanto, sou frequentemente confrontado com vários preditores candidatos para a resposta. Conseqüentemente, construir um pequeno conjunto de apenas alguns modelos pré-determinados e compará-los (sem fazer seleção gradual ou para frente ou para trás, ou todas as combinações possíveis (draga)) é muitas vezes impossível, mesmo com o melhor conhecimento biológico disponível e um pensamento cuidadoso. Algum outro conselho sobre qual seria a melhor maneira nesses casos?

— Tilen 15/03/19

@ Tilen, a estimativa regularizada geralmente é uma boa idéia; por exemplo, rede elástica ou seus casos especiais (laço e cume) podem ser úteis. Mínimos quadrados parciais é outra maneira.

— Richard Hardy

Obrigado, vou olhar para eles. Esses métodos são muito mais complicados a partir de, por exemplo, procedimentos passo a passo baseados na AIC ou são apenas mais recentes? A razão pela qual estou perguntando é entender por que os cursos e livros de modelagem estatística (pelo menos introdutórios ou básicos, mas aplicados a evn) parecem conter procedimentos passo a passo (tanto com valor-p quanto com base na AIC), em vez dos métodos que você se referiu.

— Tilen 15/03/19

@ Tilen, provavelmente ambos.

— Richard Hardy

Eu vejo. Gostaria de saber se você tem alguma opinião sobre uma pergunta diretamente relacionada, mas diferente: stats.stackexchange.com/questions/265572/… ?

— Tilen 15/03/19