Gostaria de criar uma floresta aleatória usando o seguinte processo:
- Construa uma árvore em amostras aleatórias dos dados e recursos usando o ganho de informações para determinar as divisões
- Encerre um nó folha se exceder uma profundidade predefinida OU qualquer divisão resultaria em uma contagem de folhas menor que um mínimo predefinido
- Em vez de atribuir um rótulo de classe para cada árvore, atribua a proporção de classes no nó folha
- Interrompa a construção de árvores após a construção de um número predefinido
Isso prejudica o processo tradicional de floresta aleatória de duas maneiras. Primeiro, ele usa árvores podadas que atribuem proporções ao invés de rótulos de classe. E segundo, o critério de parada é um número predeterminado de árvores, em vez de uma estimativa de erro fora da bolsa.
Minha pergunta é esta:
Para o processo acima que gera N árvores, posso ajustar um modelo usando regressão logística com a seleção do LASSO? Alguém tem experiência em ajustar um classificador Random Forest e pós-processamento com o LASSO logístico?
A estrutura ISLE menciona o uso do LASSO como uma etapa de pós-processamento para problemas de regressão, mas não problemas de classificação. Além disso, não obtenho nenhum resultado útil ao pesquisar no "Random forest lasso".