Eu li as seguintes postagens que responderam à pergunta que eu ia fazer:
Use o modelo Floresta aleatória para fazer previsões a partir dos dados do sensor
Árvore de decisão para previsão de saída
Aqui está o que eu fiz até agora: comparei a regressão logística com as florestas aleatórias e a RF superou a logística. Agora, os pesquisadores médicos com quem trabalho querem transformar meus resultados de RF em uma ferramenta de diagnóstico médico. Por exemplo:
Se você é um homem asiático entre 25 e 35 anos, tem vitamina D abaixo de xx e pressão arterial acima de xx, você tem 76% de chance de desenvolver a doença xxx.
No entanto, a RF não se presta a simples equações matemáticas (veja os links acima). Então, eis a minha pergunta: que idéias todos vocês têm para usar a RF para desenvolver uma ferramenta de diagnóstico (sem precisar exportar centenas de árvores).
Aqui estão algumas das minhas idéias:
- Use RF para seleção de variáveis e, em seguida, use Logística (usando todas as interações possíveis) para fazer a equação de diagnóstico.
- De alguma forma, agregue a floresta de RF em uma "mega árvore", que de alguma forma calcula a média do nó dividido entre as árvores.
- Semelhante a # 2 e # 1, use RF para selecionar variáveis (digamos m, total de variáveis), depois construa centenas de árvores de classificação, que usam cada variável de m, e escolha a melhor árvore.
Alguma outra ideia? Além disso, fazer o nº 1 é fácil, mas alguma idéia de como implementar os nºs 2 e 3?