Eu tenho um conjunto de dados com cerca de 5.000 recursos / covariáveis frequentemente correlacionados e uma resposta binária. Os dados foram dados para mim, eu não os coletei. Uso Lasso e aumento de gradiente para construir modelos. Eu uso a validação cruzada iterada e aninhada. Relato os maiores coeficientes 40 (absolutos) de Lasso e as 40 características mais importantes no gradiente de árvores reforçadas (não havia nada de especial em 40; parecia apenas uma quantidade razoável de informações). Também relato a variação dessas quantidades nas dobras e nas iterações do CV.
Eu meio que penso nas características "importantes", sem fazer declarações sobre valores-p, causalidade ou algo assim, mas, em vez disso, considero esse processo uma espécie de insight - embora imperfeito e meio aleatório - sobre algum fenômeno.
Supondo que eu tenha feito tudo isso corretamente (por exemplo, validação cruzada executada corretamente, dimensionada para laço), essa abordagem é razoável? Existem problemas com, por exemplo, teste de múltiplas hipóteses, análise post hoc, descoberta falsa? Ou outros problemas?
Objetivo
Prever a probabilidade de um evento adverso
- Acima de tudo, estime a probabilidade com precisão
- Mais pequeno - como verificação de sanidade, mas também para talvez revelar alguns preditores novos que poderiam ser mais investigados, inspecione os coeficientes e as importâncias, como mencionado acima.
Consumidor
- Pesquisadores interessados em prever este evento e as pessoas que acabam tendo que corrigi-lo, se ocorrer
O que eu quero que eles tirem disso
Dê a eles a capacidade de prever o evento, se desejar repetir o processo de modelagem, conforme descrito, com seus próprios dados.
Lançar alguma luz sobre preditores inesperados. Por exemplo, pode acontecer que algo completamente inesperado seja o melhor preditor. Os modeladores de outros lugares, portanto, podem considerar mais seriamente o referido preditor.