Dados correlacionados de alta dimensão e principais recursos / covariáveis descobertos; teste de múltiplas hipóteses?

Eu tenho um conjunto de dados com cerca de 5.000 recursos / covariáveis frequentemente correlacionados e uma resposta binária. Os dados foram dados para mim, eu não os coletei. Uso Lasso e aumento de gradiente para construir modelos. Eu uso a validação cruzada iterada e aninhada. Relato os maiores coeficientes 40 (absolutos) de Lasso e as 40 características mais importantes no gradiente de árvores reforçadas (não havia nada de especial em 40; parecia apenas uma quantidade razoável de informações). Também relato a variação dessas quantidades nas dobras e nas iterações do CV.

Eu meio que penso nas características "importantes", sem fazer declarações sobre valores-p, causalidade ou algo assim, mas, em vez disso, considero esse processo uma espécie de insight - embora imperfeito e meio aleatório - sobre algum fenômeno.

Supondo que eu tenha feito tudo isso corretamente (por exemplo, validação cruzada executada corretamente, dimensionada para laço), essa abordagem é razoável? Existem problemas com, por exemplo, teste de múltiplas hipóteses, análise post hoc, descoberta falsa? Ou outros problemas?

Objetivo

Prever a probabilidade de um evento adverso

Acima de tudo, estime a probabilidade com precisão
Mais pequeno - como verificação de sanidade, mas também para talvez revelar alguns preditores novos que poderiam ser mais investigados, inspecione os coeficientes e as importâncias, como mencionado acima.

Consumidor

Pesquisadores interessados em prever este evento e as pessoas que acabam tendo que corrigi-lo, se ocorrer

O que eu quero que eles tirem disso

Dê a eles a capacidade de prever o evento, se desejar repetir o processo de modelagem, conforme descrito, com seus próprios dados.
Lançar alguma luz sobre preditores inesperados. Por exemplo, pode acontecer que algo completamente inesperado seja o melhor preditor. Os modeladores de outros lugares, portanto, podem considerar mais seriamente o referido preditor.

— user0
fonte

Seria útil saber qual é a intenção aqui. Você fez essas coisas, por quê? Quem é o consumidor e o que você deseja que eles tirem da análise?

— Matthew Drury

Não há problemas com a precisão das previsões. A incerteza em suas previsões é bem estimada por validação cruzada. Talvez uma ressalva seja a de que, se você testar muitas configurações de parâmetros, superestimar a precisão, portanto, use um conjunto de validação para estimar a precisão do seu modelo final. Além disso, seus dados devem ser representativos dos dados em que você fará previsões.

Está claro para você, e deve ficar claro para o leitor, que seus preditores não são causas do efeito, são apenas preditores que fazem uma boa previsão e funcionam bem empiricamente. Embora eu concorde totalmente com sua cautela, inferir qualquer causa a partir de dados observacionais é problemático em qualquer caso. Coisas como significado são conceitos "válidos" em estudos bem projetados e controlados e, fora disso, são apenas ferramentas que você e outros devem interpretar com sabedoria e cautela. Pode haver causas comuns, efeitos espúrios, mascaramentos e outras coisas acontecendo em uma regressão linear normal com intervalos de confiança relatados, bem como em um modelo de laço, bem como em um modelo de árvore com gradiente.

— Gijs
fonte

Dados correlacionados de alta dimensão e principais recursos / covariáveis ​​descobertos; teste de múltiplas hipóteses?

Dados correlacionados de alta dimensão e principais recursos / covariáveis descobertos; teste de múltiplas hipóteses?