As florestas aleatórias (RF) são um método competitivo de modelagem / mineração de dados.
Um modelo de RF possui uma saída - a variável de saída / previsão.
A abordagem ingênua para modelar várias saídas com RFs seria construir uma RF para cada variável de saída. Portanto, temos N modelos independentes e, onde houver correlação entre as variáveis de saída, teremos uma estrutura de modelo redundante / duplicada. Isso poderia ser muito inútil, de fato. Também como regra geral, mais variáveis de modelo implicam um modelo mais super ajustado (menos generalização). Não tenho certeza se isso se aplica aqui, mas provavelmente o faz.
Em princípio, poderíamos ter um RF com várias saídas. A variável de previsão agora é um vetor (n-tupla). Os nós de decisão em cada árvore de decisão agora dividem o conjunto de vetores de destino / previsão com base em um vetor de limiar. Eu acho que esse limite é considerado um plano no espaço n-dimensional e, portanto, podemos determinar qual lado do limiar vector cada um dos vetores de destino está ativado.
O valor ideal de previsão para cada lado da divisão de decisão é a média (centróide) calculada para os vetores de cada lado.
Encontrar o ponto de divisão ideal ao trabalhar com variáveis únicas é trivial e computacionalmente rápido / eficiente. Para uma n-tupla, não podemos encontrar a divisão ideal (ou pelo menos se torna computacionalmente inviável à medida que N aumenta), mas podemos encontrar uma divisão quase ideal usando um método do tipo Monte Carlo (ou algum híbrido de Monte Carlo e local). percurso de gradiente).
Isso realmente funcionaria? Ou seja, apenas mapearia os pares de treinamento sem generalizar? Essa técnica já existe com um nome diferente?
Você também pode considerar como isso se relaciona com redes neurais, como RBMs (Restricted Boltzmann Machines) e Deep Belief Networks.