Um pouco mais de informação; Suponha que
- você sabe de antemão quantas variáveis selecionar e que define a penalidade de complexidade no procedimento LARS para ter exatamente tantas variáveis com coeficientes diferentes de 0,
- custos de computação não são um problema (o número total de variáveis é pequeno, digamos 50),
- que todas as variáveis (y, x) são contínuas.
Em que cenário o modelo LARS (ou seja, o ajuste OLS dessas variáveis com coeficientes diferentes de zero no ajuste LARS) seria mais diferente de um modelo com o mesmo número de coeficientes, mas encontrado por meio de pesquisa exaustiva (a la regsubsets ())?
Edit: Estou usando 50 variáveis e 250 observações com os coeficientes reais extraídos de um gaussiano padrão, exceto por 10 das variáveis com coeficientes 'reais' de 0 (e todos os recursos sendo fortemente correlacionados). Essas configurações obviamente não são boas, pois as diferenças entre os dois conjuntos de variáveis selecionadas são mínimas. Esta é realmente uma pergunta sobre que tipo de configuração de dados deve-se simular para obter o máximo de diferenças.