O que você acha da aplicação de técnicas de aprendizado de máquina, como florestas aleatórias ou regressão penalizada (com pena de L1 ou L2 ou uma combinação delas) em pequenos estudos clínicos de amostra quando o objetivo é isolar preditores interessantes em um contexto de classificação? Não é uma pergunta sobre seleção de modelos, nem estou perguntando sobre como encontrar estimativas ideais de efeito / importância variável. Não pretendo fazer inferência forte, mas apenas usar modelagem multivariada, evitando testar cada preditor contra o resultado do interesse, um de cada vez, e levando em consideração suas inter-relações.
Eu estava pensando se essa abordagem já foi aplicada nesse caso extremo, digamos 20 a 30 indivíduos com dados em 10 a 15 variáveis categóricas ou contínuas. Não é exatamente o caso e acho que o problema aqui está relacionado ao número de classes que tentamos explicar (que geralmente não são bem equilibradas) e ao (muito) pequeno n. Estou ciente da enorme literatura sobre esse tópico no contexto da bioinformática, mas não encontrei nenhuma referência relacionada a estudos biomédicos com fenótipos psicometricamente medidos (por exemplo, em questionários neuropsicológicos).
Alguma dica ou indicação de papéis relevantes?
Atualizar
Estou aberto a outras soluções para analisar esse tipo de dados, por exemplo, o algoritmo C4.5 ou seus derivados, métodos de regras de associação e quaisquer técnicas de mineração de dados para classificação supervisionada ou semi-supervisionada.