Modelando com mais variáveis que pontos de dados

11

Eu sou bastante novo em Machine Learning / Modeling e gostaria de ter um histórico desse problema. Eu tenho um conjunto de dados em que o número de observações é mas o número de variáveis é . Em primeiro lugar, faz sentido considerar a construção de um modelo em um conjunto de dados como este ou deve-se considerar uma técnica de seleção variável para começar, como regressão de cume ou Lasso? Eu li que essa situação pode levar a um excesso de ajuste. É o caso de todas as técnicas de ML ou algumas técnicas lidam com isso melhor do que outras? Sem muita matemática, uma explicação simples sobre por que a matemática começa a se decompor para seria apreciada. $n<200$ $p\sim 8000$ $p>n$

— PaulB.
fonte

14

Certamente é possível ajustar bons modelos quando houver mais variáveis que pontos de dados, mas isso deve ser feito com cuidado.

Quando há mais variáveis do que pontos de dados, o problema pode não ter uma solução única, a menos que seja mais restrito. Ou seja, pode haver várias soluções (talvez infinitas) que se ajustem igualmente bem aos dados. Esse problema é chamado de "mal-posado" ou "sub-determinado". Por exemplo, quando há mais variáveis que pontos de dados, a regressão padrão de mínimos quadrados possui infinitas soluções que alcançam erro zero nos dados de treinamento.

Esse modelo certamente superajustaria porque é "flexível demais" para a quantidade de dados de treinamento. À medida que a flexibilidade do modelo aumenta (por exemplo, mais variáveis em um modelo de regressão) e a quantidade de dados de treinamento diminui, torna-se cada vez mais provável que o modelo consiga obter um erro baixo ajustando flutuações aleatórias nos dados de treinamento que não representam o distribuição subjacente verdadeira. Portanto, o desempenho será ruim quando o modelo for executado em dados futuros extraídos da mesma distribuição.

$\ell_1$ $\ell_2$

Restrições podem gerar uma solução única, desejável quando queremos interpretar o modelo para aprender algo sobre o processo que gerou os dados. Eles também podem produzir um melhor desempenho preditivo, limitando a flexibilidade do modelo, reduzindo assim a tendência ao super ajuste.

No entanto, impor restrições ou garantir a existência de uma solução exclusiva não implica que a solução resultante será boa. As restrições só produzirão boas soluções quando forem realmente adequadas ao problema.

Alguns pontos diversos:

A existência de múltiplas soluções não é necessariamente problemática. Por exemplo, as redes neurais podem ter muitas soluções possíveis que são distintas umas das outras, mas quase igualmente boas.
A existência de mais variáveis do que pontos de dados, a existência de várias soluções e o ajuste excessivo geralmente coincidem. Mas, esses são conceitos distintos; cada um pode ocorrer sem os outros.

— user20160
fonte

3

$3$ $3=7-3-1$ $3=1234-23451+22220$

$(3, 0, 0)$ $(2, 1, 0)$

É para isso que serve a regressão penalizada (como laço ou cordilheira): encontre um subconjunto gerenciável de soluções "mais simples", potencialmente mais naturais até certo ponto. Eles usam a lei da parcimônia, ou a navalha de Ockham , para a qual, se dois modelos explicam a observação com a mesma precisão, pode ser mais sábio escolher o mais compacto em termos de, por exemplo, o número de parâmetros livres. Não se "explica" realmente uma relação útil entre variáveis com modelos muito envolvidos.

Uma citação atribuída a John von Neumann ilustra esse contexto:

Com quatro parâmetros, consigo encaixar um elefante e, com cinco, posso fazê-lo mexer a tromba.

— Laurent Duval
fonte

Modelando com mais variáveis ​​que pontos de dados

Modelando com mais variáveis que pontos de dados