Quais devem ser os parâmetros ideais para o classificador Random Forest?

14

Atualmente, estou usando a caixa de ferramentas RF no MATLAB para uma classificação binária

Conjunto de dados: 50000 amostras e mais de 250 recursos

Então, qual deve ser o número de árvores e o recurso selecionado aleatoriamente em cada divisão para cultivar as árvores? outro parâmetro pode afetar muito os resultados?

machine-learning classification random-forest

— Rizwan
fonte

8

Escolha um grande número de árvores, digamos 100. Pelo que li na Internet, escolha $\sqrt{250}$ recursos selecionados aleatoriamente. No entanto, no artigo original , Breiman usou o número inteiro mais próximo de $\frac{\log{M}}{\log{2}}$ .

Eu diria que a validação cruzada é geralmente a chave para encontrar parâmetros ideais, mas não sei o suficiente sobre florestas aleatórias.

— Wok
fonte

Breiman usado

⌊ 1 + \log_{2} M ⌋

$\lfloor 1 + \log_2 M\rfloor$ características. Estou deixando um comentário aqui, porque o seu link não funcionar :)

— Antoine

Obrigado, eu atualizei o link. Agora, é direto para Berkeley.

— Wok

12

Número de árvores, quanto maior, melhor. Você quase não pode ultrapassar esse parâmetro, mas é claro que o limite superior depende do tempo computacional que você deseja gastar em RF.
A boa idéia é fazer uma floresta longa primeiro e depois ver (espero que esteja disponível na implementação do MATLAB) quando a precisão do OOB convergir.

Número de atributos tentados, o padrão é raiz quadrada de todo o número de atributos, mas geralmente a floresta não é muito sensível ao valor desse parâmetro - na verdade, raramente é otimizado, principalmente porque o aspecto estocástico da RF pode apresentar variações maiores.

7

Número de árvores, quanto maior, melhor: concordou.

O número de atributos tentados dependerá. Se você já tem algum a priori sobre como a informação está se espalhando ou não entre os recursos. Se as informações forem compartilhadas por muitos recursos, melhores resultados resultariam em um valor menor desse parâmetro. Enquanto, por outro lado, se apenas alguns recursos carregam as informações, você deve usar valores maiores. Em outras palavras, com muitas variáveis relevantes: valores menores são melhores e com muitas variáveis irrelevantes: valores maiores são melhores.

— 0asa
fonte

1

Embora sua alegação sobre o número de atributos experimentados faça sentido, você tem uma citação para isso?

— James Owers

Eu recomendaria a leitura desta tese: github.com/glouppe/phd-thesis , bem como esta: orbi.ulg.ac.be/handle/2268/25737

— 0asa