A Random Forest é adequada para conjuntos de dados muito pequenos?


13

Eu tenho um conjunto de dados composto por 24 linhas de dados mensais. Os recursos são PIB, chegadas no aeroporto, mês e alguns outros. A variável dependente é o número de visitantes de um destino turístico popular. A Random Forest seria adequada para esse problema?

Os dados não são públicos, por isso não consigo postar uma amostra.


Normalmente, a única restrição na floresta aleatória é que seu número de recursos deve ser bastante grande - o primeiro passo da RF é escolher recursos de 1/3n ou sqrt (n) para construir uma árvore (dependendo da tarefa, regressão / classificação). Portanto, se você tiver muitos recursos, use RF mesmo em conjuntos de dados pequenos - não há algoritmo que funcione realmente bem em conjuntos de dados pequenos, para que você não perca nada.
German Demidov

Você está na faixa baixa. O RF funcionará, mas provavelmente não aprenderá coisas muito mais complexas do que o que você poderia perceber ao observar os dados brutos. Ajuda se os seus dados tiverem um ruído muito baixo. De 40 a 50 amostras, começa a melhorar. 500 bom. 5000 awesome.
Soren Havelund Welling

para regressão, a profundidade possível da árvore é limitada por minnode = 5; portanto, suas amostras não seriam divididas em média mais de 2 vezes [[24 -> (1) 12 -> (2) 6.]] Incluindo a limitação o modelo dificilmente capturaria qualquer efeito de interação ou mesmo efeito não linear simples. Você pode mexer com minnode e mtry, mas só deve fazer isso se seus dados praticamente apresentarem menos ruído. Potencial sobre conclusões adequadas seria o outro lado. Você obteve a estrutura do modelo pareceria uma função passo suavizada.
Soren Havelund Welling


Para um pequeno conjunto de dados, use a técnica de Validação Cruzada. Para mais informações, stats.stackexchange.com/questions/19048/...
Asif Khan

Respostas:


4

A floresta aleatória é basicamente a reamostragem de bootstrap e o treinamento de árvores de decisão nas amostras. Portanto, a resposta à sua pergunta precisa abordar essas duas.

A reamostragem de bootstrap não é uma cura para pequenas amostras . Se você tiver apenas vinte e quatro observações em seu conjunto de dados, cada uma das amostras coletadas com a substituição desses dados consistirá em não mais do que os vinte e quatro valores distintos. Embaralhar os casos e não desenhar alguns deles não mudaria muito sua capacidade de aprender algo novo sobre a distribuição subjacente. Portanto, uma pequena amostra é um problema para a inicialização.

As árvores de decisão são treinadas dividindo os dados condicionalmente nas variáveis ​​preditoras, uma variável de cada vez, para encontrar subamostras que têm maior poder discriminatório. Se você tiver apenas vinte e quatro casos, diga que, se tivesse sorte e todas as divisões tivessem o mesmo tamanho, com duas divisões você terminaria com quatro grupos de seis casos, com divisões em árvores, com oito grupos de três. Se você calculasse médias condicionais nas amostras (para prever valores contínuos em árvores de regressão ou probabilidades condicionais em árvores de decisão), basearia sua conclusão apenas nesses poucos casos! Portanto, as subamostras que você usaria para tomar as decisões seriam ainda menores que os dados originais.

Com amostras pequenas, geralmente é aconselhável usar métodos simples . Além disso, você pode acompanhar a pequena amostra usando informações preliminares na configuração bayesiana (se você tiver algum conhecimento razoável de dados insuficientes sobre o problema), para que possa considerar o uso de algum modelo bayesiano personalizado.


1

Por um lado, esse é um pequeno conjunto de dados, e a floresta aleatória requer muitos dados.

Por outro lado, talvez algo seja melhor que nada. Não há mais nada a dizer do que "Experimente e veja". Você decide se um modelo específico é ou não "bom"; além disso, não podemos dizer se algum modelo é adequado para uma finalidade específica (nem você deseja que nós - não há custo para nós se estivermos errados!).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.