A que se refere o "tamanho do nó" na Floresta Aleatória?

Eu não entendo exatamente o que se entende por tamanho do nó. Eu sei o que é um nó de decisão, mas não o tamanho do nó.

machine-learning random-forest bagging

— wolfsatthedoor
fonte

Uma árvore de decisão funciona por partição recursiva do conjunto de treinamento. Cada nó de uma árvore de decisão está associado a um conjunto de pontos de dados do conjunto de treinamento: $t$ $n_t$

n_t é o tamanho de cada nó

Você pode encontrar o parâmetro nodesizeem alguns pacotes de florestas aleatórias, por exemplo, R : Esse é o tamanho mínimo do nó ; no exemplo acima, o tamanho mínimo do nó é 10. Esse parâmetro define implicitamente a profundidade de suas árvores.

nodesize do pacote florestal aleatório R

Tamanho mínimo dos nós do terminal. Definir esse número maior faz com que árvores menores sejam cultivadas (e, portanto, levam menos tempo). Observe que os valores padrão são diferentes para classificação (1) e regressão (5).

Em outros pacotes, você encontra diretamente o parâmetro depth, por exemplo, WEKA :

-depth do pacote florestal aleatório WEKA

A profundidade máxima das árvores, 0 para ilimitado. (padrão 0)

— Simone
fonte

O que são 'registros'? Você quer dizer pontos de dados? Por que cada nó está associado a um conjunto de registros? Entendo florestas aleatórias muito bem, mas não sei o que o jargão significa.

— wolfsatthedoor

Sim, eu quis dizer ponto de dados. Geralmente, você pode se referir aos pontos de dados como registros, instâncias ou exemplos.

— Simone

Portanto, existe uma regra de tamanho mínimo do nó para evitar o excesso de ajuste nas árvores? Eu imagino que depende do tamanho dos dados de treinamento, então talvez uma certa proporção do tamanho do conjunto de dados?

— Seanosapien

Em florestas aleatórias, as árvores são totalmente crescidas: o tamanho do nó é 1. Evita-se a adaptação excessiva do cultivo de muitas árvores. Na árvore de decisão, é mais complicado. As árvores não estão totalmente crescidas e é preciso fazer a poda para evitar o excesso de ajustes.

— Simone

Parece que o vinhedo é algum tipo de seleção de recurso para simplificar a árvore e evitar o ajuste excessivo. Eu acho que podar uma única árvore é sempre benéfico. Em vez disso, às vezes, a peneiração pode diminuir a precisão, mas simplifica a árvore.

— Simone

Não está claro se o tamanho do nó está na amostra "dentro da bolsa" ou no erro "fora da bolsa". Se estiver na amostra "pronta para uso", é um pouco mais restritiva.

— Cavaleiro das Trevas
fonte