Me deparei com o termo proximidade em florestas aleatórias. Mas não conseguia entender o que faz em florestas aleatórias. Como isso ajuda para fins de classificação?
Me deparei com o termo proximidade em florestas aleatórias. Mas não conseguia entender o que faz em florestas aleatórias. Como isso ajuda para fins de classificação?
Respostas:
O termo "proximidade" significa "proximidade" ou "proximidade" entre pares de casos.
As proximidade são calculadas para cada par de casos / observações / pontos de amostra. Se dois casos ocupam o mesmo nó terminal através de uma árvore, sua proximidade é aumentada em um. No final da execução de todas as árvores, as proximidades são normalizadas dividindo pelo número de árvores. Proximidades são usadas na substituição de dados ausentes, na localização de outliers e na produção de vistas iluminadas em baixa dimensão dos dados.
Proximidades
As proximidades formaram originalmente uma matriz NxN. Depois que uma árvore for cultivada, coloque todos os dados, tanto de treinamento quanto de elevação, na árvore. Se os casos k e n estiverem no mesmo nó terminal, aumente a proximidade em um. No final, normalize as proximidades dividindo pelo número de árvores.
Os usuários observaram que, com grandes conjuntos de dados, eles não podiam ajustar uma matriz NxN na memória rápida. Uma modificação reduziu o tamanho de memória necessário para NxT, onde T é o número de árvores na floresta. Para acelerar o dimensionamento intensivo em computação e a substituição iterativa de valor ausente, o usuário tem a opção de manter apenas as nrnn maiores proximidades de cada caso.
Quando um conjunto de testes está presente, as proximidades de cada caso no conjunto de testes com cada caso no conjunto de treinamento também podem ser calculadas. A quantidade de computação adicional é moderada.
citação: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
Observe que os autores do Elements of Statistical Learning afirmam que "os gráficos de proximidade para florestas aleatórias costumam parecer muito semelhantes, independentemente dos dados, o que coloca em dúvida sua utilidade. Eles tendem a ter uma forma de estrela, um braço por classe, o que é mais pronunciado, melhor o desempenho da classificação ". (p 595)
No entanto, acho que esses autores não mencionam as maneiras pelas quais as florestas aleatórias lidam tanto com dados ausentes (mesmo que mencionem dados ausentes com árvores no início do livro); talvez os autores não tenham destacado tanto esse aspecto das RFs, o que faz sentido, considerando que o livro é enorme e possui muitas informações sobre muitos tópicos / técnicas de aprendizado de máquina. No entanto, não acho que ter os gráficos dê formas semelhantes a qualquer RF e conjunto de dados significa algo negativo sobre os RFs em geral. Por exemplo, a regressão linear basicamente sempre parece a mesma, mas vale a pena saber quais pontos estão próximos à linha e quais parecem ser extremos da perspectiva da regressão linear. Então ... o comentário deles sobre a utilidade dos gráficos de proximidade não faz sentido para mim.