Minha pergunta: Por que a floresta aleatória considera subconjuntos aleatórios de recursos para dividir no nível do nó em cada árvore, e não no nível da árvore ?
Antecedentes: isso é uma questão de história. Tin Kam Ho publicado este papel na construção de "florestas de decisão", selecionando aleatoriamente um subconjunto de recursos de uso para o cultivo de cada árvore em 1998. Alguns anos mais tarde, em 2001, Leo Breiman publicou seu seminal aleatória Floresta de papel , em que o subconjunto característica é aleatoriamente selecionado em cada nó em cada árvore, não em cada árvore. Enquanto Breiman citou Ho, ele não explicou especificamente a mudança da seleção aleatória de recursos no nível de árvore e no nível de nó.
Gostaria de saber o que motivou especificamente esse desenvolvimento. Parece que a seleção do subconjunto de recursos no nível da árvore ainda alcançaria a decorrelação desejada das árvores.
Minha teoria: eu não vi isso articulado em outro lugar, mas parece que o método do subespaço aleatório seria menos eficiente em termos de obter estimativas de importância do recurso. Para obter estimativas de importância variável, para cada árvore, os recursos são permutados aleatoriamente, um por um, e o aumento na classificação incorreta ou aumento no erro para as observações prontas para uso é registrado. As variáveis para as quais a classificação incorreta ou o aumento de erros resultantes dessa permutação aleatória são altas são as de maior importância.
Se usarmos o método do subespaço aleatório, para cada árvore, consideraremos apenas dos recursos p . Pode levar várias árvores para considerar todos os preditores de p mesmo uma vez. Por outro lado, se considerarmos um subconjunto diferente m i do p apresenta em cada nó , vamos considerar cada recurso mais vezes depois de menos árvores, dando-nos uma estimativa mais robusta da importância recurso.
O que eu olhei até agora: Até agora, li o artigo de Breiman e o artigo de Ho e fiz uma ampla pesquisa on-line para comparar os métodos sem encontrar uma resposta definitiva. Observe que uma pergunta semelhante foi feita antes. Esta questão vai um pouco mais longe, incluindo minha especulação / trabalho em direção a uma possível solução. Eu estaria interessado em quaisquer respostas, citações relevantes ou estudos de simulação comparando as duas abordagens. Se não houver nenhum, planejo executar minha própria simulação comparando os dois métodos.