Estou conduzindo uma análise em que o objetivo principal é entender os dados. O conjunto de dados é grande o suficiente para validação cruzada (10k), e os preditores incluem variáveis contínuas e simuladas, e o resultado é contínuo. O objetivo principal era verificar se faz sentido expulsar alguns preditores, a fim de facilitar a interpretação do modelo.
Questões:
Minha pergunta é "que vários explicam o resultado e são uma parte 'suficientemente forte' dessa explicação". Mas, para selecionar o parâmetro lambda para laço, use a validação cruzada, ou seja, a validade preditiva como critério. Ao fazer inferência, a validade preditiva é um proxy suficientemente bom para a pergunta geral que estou fazendo?
Digamos que o LASSO tenha mantido apenas 3 dos 8 preditores. E agora me pergunto: "que efeito isso tem no resultado". Por exemplo, encontrei uma diferença de gênero. Após o encolhimento do laço, o coeficiente sugere que as mulheres tenham 1 ponto a mais que os homens. Mas sem o encolhimento (ou seja, no conjunto de dados real), eles obtêm 2,5 pontos a mais.
- Qual deles eu consideraria meu efeito de gênero "real"? Indo apenas pela validade preditiva, seria o coeficiente reduzido.
- Ou, em um contexto, digamos que estou escrevendo um relatório para pessoas pouco versadas em estatística. Qual coeficiente eu reportaria a eles?