Eu acho que as respostas anteriores fazem um bom trabalho ao fazer pontos importantes:
- Modelos parcimoniosos tendem a ter melhores características de generalização.
- A parcimônia não é verdadeiramente um padrão-ouro, mas apenas uma consideração.
Quero acrescentar alguns comentários que saem da minha experiência de trabalho do dia a dia.
A generalização do argumento da precisão preditiva é, é claro, forte, mas tem um viés academicamente em seu foco. Em geral, ao produzir um modelo estatístico, as economias não são tais que o desempenho preditivo seja uma consideração completamente dominante. Muitas vezes, existem grandes restrições externas sobre a aparência de um modelo útil para um determinado aplicativo:
- O modelo deve ser implementável dentro de uma estrutura ou sistema existente.
- O modelo deve ser compreensível por uma entidade não técnica.
- O modelo deve ser eficiente computacionalmente.
- O modelo deve ser documentável .
- O modelo deve passar por restrições regulatórias .
Em domínios de aplicativos reais, muitas, se não todas, essas considerações vêm antes , e não depois , do desempenho preditivo - e a otimização da forma e dos parâmetros do modelo é restringida por esses desejos. Cada uma dessas restrições direciona o cientista para a parcimônia.
Pode ser verdade que em muitos domínios essas restrições estão sendo gradualmente eliminadas. Mas é o cientista sortudo que realmente os ignora e se concentra puramente em minimizar o erro de generalização.
Isso pode ser muito frustrante pela primeira vez, cientista recém-saído da escola (definitivamente era para mim e continua sendo quando sinto que as restrições impostas ao meu trabalho não são justificadas). Mas, no final, trabalhar duro para produzir um produto inaceitável é um desperdício, e isso é pior do que o aguilhão do seu orgulho científico.