Suposições aleatórias da floresta


43

Eu sou uma espécie de floresta aleatória, então ainda estou lutando com alguns conceitos básicos.
Na regressão linear, assumimos observações independentes, variação constante…

  • Quais são as suposições / hipóteses básicas que fazemos quando usamos floresta aleatória?
  • Quais são as principais diferenças entre floresta aleatória e bayes ingênuos em termos de suposições de modelo?

Respostas:


33

Obrigado por uma pergunta muito boa! Vou tentar dar a minha intuição por trás disso.

Para entender isso, lembre-se dos "ingredientes" do classificador florestal aleatório (existem algumas modificações, mas este é o pipeline geral):

  1. Em cada etapa da construção de uma árvore individual, encontramos a melhor divisão de dados
  2. Ao construir uma árvore, usamos não todo o conjunto de dados, mas exemplo de autoinicialização
  3. Agregamos as saídas individuais da árvore por média (na verdade 2 e 3 significa procedimento de ensacamento mais geral ).

Suponha o primeiro ponto. Nem sempre é possível encontrar a melhor divisão. Por exemplo, no conjunto de dados a seguir, cada divisão fornecerá exatamente um objeto classificado incorretamente. Exemplo do conjunto de dados sem melhor divisão

E acho que exatamente esse ponto pode ser confuso: de fato, o comportamento da divisão individual é de alguma forma semelhante ao comportamento do classificador Naive Bayes: se as variáveis ​​são dependentes - não há melhor divisão para o classificador Decision Trees e Naive Bayes também falha (apenas para lembrar: variáveis ​​independentes é a principal suposição que fazemos no classificador Naive Bayes; todas as outras suposições vêm do modelo probabilístico que escolhemos).

Mas aqui vem a grande vantagem das árvores de decisão: fazemos qualquer divisão e continuamos a dividir ainda mais. E para as seguintes divisões, encontraremos uma separação perfeita (em vermelho). Exemplo do limite de decisão

E como não temos um modelo probabilístico, mas apenas uma divisão binária, não precisamos fazer nenhuma suposição.

Era sobre a Árvore de Decisão, mas também se aplica à Floresta Aleatória. A diferença é que, para a Floresta Aleatória, usamos a Agregação de Bootstrap. Não possui um modelo abaixo, e a única suposição de que se baseia é que a amostragem é representativa . Mas isso geralmente é uma suposição comum. Por exemplo, se uma classe consiste em dois componentes e em nosso conjunto de dados, um componente é representado por 100 amostras e outro componente é representado por 1 amostra - provavelmente a maioria das árvores de decisão individuais verá apenas o primeiro componente e a Random Forest classificará incorretamente o segundo . Exemplo de segundo componente fracamente representado

Espero que isso dê um entendimento maior.


10

Em um artigo de 2010, os autores documentaram que modelos florestais aleatórios estimavam de maneira confiável a importância de variáveis ​​quando as variáveis ​​eram multicolineares no espaço estatístico multidimensional. Eu costumo verificar isso antes de executar modelos de floresta aleatórios.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1


3
Você acredita que as conclusões de "Quantificando a conectividade de Bufo boreas no Parque Nacional de Yellowstone com a genética da paisagem" em Ecologia são de autoria de autores do Estado do Colorado sobre autores de Berkeley no Machine Learning sobre o tópico de algoritmos de aprendizado de máquina?
Hack-R #

8
Eu não acho que eles estejam em desacordo. Breiman não investigou esse 'caso especial' de multicolinearidade no espaço multidimensional. Além disso, as pessoas no estado do Colorado também podem ser inteligentes - e esses caras são.
Mina
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.