Esta é uma pergunta muito boa. Quando o número de candidatos a preditores é maior que o tamanho efetivo da amostra , e não há restrições nos coeficientes de regressão (por exemplo, um não está usando encolhimento, também conhecido como estimativa ou regularização de verossimilhança máxima penalizada), a situação é desesperadora. Eu digo que por várias razões, incluindopn
- Se você pensar no número de combinações lineares não redundantes de variáveis que podem ser analisadas, esse número é . Por exemplo, você não pode nem computar , muito menos confiar, componentes principais além de .≤min(n,p)min(n,p)
- Com e não há duas coordenadas em uma linha vertical ao plotar , pode-se obter para qualquer conjunto de dados, mesmo que a população real seja 0,0.p=ny(x,y)R2=1.0R2
- Se você usar qualquer algoritmo de seleção de recurso, como temidos modelos de regressão passo a passo, a lista de recursos "selecionados" será essencialmente um conjunto aleatório de recursos, sem esperança de replicação em outra amostra. Isto é especialmente verdade se houver correlações entre as características candidatas, por exemplo, co-linearidade.
- O valor de necessário para estimar com precisão decente um único coeficiente de correlação entre duas variáveis é de cerca de 400. Veja aqui .n
Em geral, um estudo que pretende analisar 45 variáveis em 45 indivíduos é mal planejado e as únicas maneiras de resgatá-lo que eu conheço são
- Pré-especifique um ou dois preditores para analisar e ignorar o restante
- Use estimativa penalizada, como regressão de crista, para ajustar todas as variáveis, mas use os coeficientes com um grão de sal (descontos pesados)
- Use a redução de dados, por exemplo, componentes principais, clustering variável, componentes principais esparsos (o meu favorito), conforme discutido no meu livro do RMS e nas notas do curso . Isso envolve combinar variáveis difíceis de separar e não tentar estimar efeitos separados para elas. Para você só pode se dar bem com 2 pontuações reduzidas por jogar contra . A redução de dados (aprendizado não supervisionado) é mais interpretável do que a maioria dos outros métodos.n=45y
Um detalhe técnico: se você usar um dos melhores métodos combinados de seleção / penalização de variáveis, como laço ou rede elástica, poderá diminuir a chance de sobreajuste, mas ficará decepcionado com o fato de a lista de recursos selecionados ser altamente instável e não se replicar em outros conjuntos de dados.